拡散型LLM(dLLM)の推論を、明示的なプロセス報酬なしで誘導する手法「reward-free guidance(RFG)」を提案する論文です。 / RFGでは、強化学習やSFTで強化されたモデルと参照モデルの対数尤度比を使って、報酬を近似する考え方が示されています。 / 理論的な正当化に加え、数学的推論とコード生成の4つのベンチマークで実験が行われたと要約されています。