2023年8月 - 先端技術社会科学研究所

論文紹介: WizardMath——大規模言語モデルの数学的推論を強化する Reinforced Evol-Instruct

2023年8月18日

arXivのプレプリントとして公開された、数学推論に特化した大規模言語モデルの研究です。 / 提案手法は、Evol-Instruct系のフィードバックを強化学習で活用するRLEIFにより、数学領域でのChain-of-Thought推論を改善すると説明されています。 / GSM8kとMATHの2つのベンチマークで評価され、オープンソースモデルとの比較や、GPT-3.5-Turbo、Claude 2、Gemini Pro、GPT-4-early-versionとの比較結果が示されています。