arXivのプレプリントとして公開された、3D視覚グラウンディングに関する論文です。 / LLMを使って自然言語の質問を分解し、3Dシーン内の対象物を見つける流れが提案されています。 / ラベル付き学習データを使わないゼロショット・オープンボキャブラリ手法で、新しい3Dシーンや任意のテキスト質問への一般化をうたっています。