2025年3月 - 先端技術社会科学研究所

論文紹介: Vision-R1 — マルチモーダル大規模言語モデルに推論能力を促す試み

2025年3月9日

arXivのプレプリントとして公開された、マルチモーダル大規模言語モデル（MLLM）の推論能力向上に関する論文です。 / DeepSeek-R1-Zeroのような強化学習による推論能力の発現に着想を得て、Vision-R1というモデルを提案しています。 / 人手注釈なしで高品質なマルチモーダルChain-of-Thoughtデータセットを構築し、cold-start用の学習データとして用いています。