Fast and Accurate Language-Based 3D Scene Understanding