AI関連ニュース
論文紹介: LLMで環境と対話しながらマルチモーダルに知覚するロボット手法「Matcha」

arXivのプレプリントとして、ロボットが環境から追加情報を取りながら行動する「interactive perception」の枠組みが提案されています。 / LLMを骨格にして、視覚・音・触覚・自己位置感覚などのマルチモーダル情報を扱いながら、次にどんな感覚情報を取りに行くかという「epistemic actions」を指示できる点が特徴です。 / 単に1回で行動を決めるのではなく、部分観測の状況で情報収集と計画を往復しながらタスクを進めるロボット制御を目指しています。

続きを読む