論文紹介: マルチモーダル大規模言語モデルにおけるRLベース推論のサーベイ
2025年4月30日
マルチモーダル大規模言語モデル(MLLM)における、強化学習(RL)を使った推論強化の研究動向を整理したサーベイ論文です。 / 抽象では、value-model-free と value-model-based の2つの主要なRLパラダイムを整理し、推論軌跡の最適化やマルチモーダル情報の整合にRLがどう関わるかを扱うとされています。 / ベンチマークデータセット、評価手順、現在の課題、今後の研究方向もまとめていると説明されています。
