AI関連ニュース
論文紹介: Vision-R1 — マルチモーダル大規模言語モデルに推論能力を促す試み

arXivのプレプリントとして公開された、マルチモーダル大規模言語モデル(MLLM)の推論能力向上に関する論文です。 / DeepSeek-R1-Zeroのような強化学習による推論能力の発現に着想を得て、Vision-R1というモデルを提案しています。 / 人手注釈なしで高品質なマルチモーダルChain-of-Thoughtデータセットを構築し、cold-start用の学習データとして用いています。

続きを読む