2025年4月 - 先端技術社会科学研究所

論文紹介: マルチモーダル大規模言語モデルにおけるRLベース推論のサーベイ

2025年4月30日

マルチモーダル大規模言語モデル（MLLM）における、強化学習（RL）を使った推論強化の研究動向を整理したサーベイ論文です。 / 抽象では、value-model-free と value-model-based の2つの主要なRLパラダイムを整理し、推論軌跡の最適化やマルチモーダル情報の整合にRLがどう関わるかを扱うとされています。 / ベンチマークデータセット、評価手順、現在の課題、今後の研究方向もまとめていると説明されています。