2025年9月 - 先端技術社会科学研究所

論文紹介: 拡散型LLMの推論を報酬なしで導く「RFG」

2025年9月29日

拡散型LLM（dLLM）の推論を、明示的なプロセス報酬なしで誘導する手法「reward-free guidance（RFG）」を提案する論文です。 / RFGでは、強化学習やSFTで強化されたモデルと参照モデルの対数尤度比を使って、報酬を近似する考え方が示されています。 / 理論的な正当化に加え、数学的推論とコード生成の4つのベンチマークで実験が行われたと要約されています。