論文紹介: 大規模言語モデルの強化学習におけるクレジット割り当てを整理するサーベイ
2026年4月10日
大規模言語モデル(LLM)の強化学習で、結果だけではなく途中のどの行動が成果に効いたのかを考える「クレジット割り当て(CA)」の問題を扱う論文です。 / 要旨によると、推論向けRLとエージェント向けRLの2つの場面を整理し、47本の手法を2次元の分類でまとめています。 / 論文では、機械可読の文献インベントリ、今後の論文向けチェックリスト、ベンチマーク手順の仕様という再利用しやすい資源も提案されています。
