2023年9月 - 先端技術社会科学研究所

論文紹介: LLM-Grounder—大規模言語モデルを用いた3D視覚グラウンディングのゼロショット手法

2023年9月21日

arXivのプレプリントとして公開された、3D視覚グラウンディングに関する論文です。 / LLMを使って自然言語の質問を分解し、3Dシーン内の対象物を見つける流れが提案されています。 / ラベル付き学習データを使わないゼロショット・オープンボキャブラリ手法で、新しい3Dシーンや任意のテキスト質問への一般化をうたっています。