AI関連ニュース
論文紹介: 拡散型LLMの推論を報酬なしで導く「RFG」

拡散型LLM(dLLM)の推論を、明示的なプロセス報酬なしで誘導する手法「reward-free guidance(RFG)」を提案する論文です。 / RFGでは、強化学習やSFTで強化されたモデルと参照モデルの対数尤度比を使って、報酬を近似する考え方が示されています。 / 理論的な正当化に加え、数学的推論とコード生成の4つのベンチマークで実験が行われたと要約されています。

続きを読む