2022年6月 - 先端技術社会科学研究所

論文紹介: LLMの計画能力を評価するための拡張可能なベンチマーク「PlanBench」

2022年6月21日

arXivのプレプリントとして、LLMの計画生成と「変化についての推論」を評価するためのベンチマーク「PlanBench」が提案されています。 / 日常的な常識問題だけでは、LLMが本当に計画しているのか、それとも広い知識を検索しているだけなのか判別しにくい、という問題意識が示されています。 / PlanBenchは、自動計画分野、特にInternational Planning Competitionで使われるようなドメインに基づき、拡張しやすい形で設計されているとされています。