AI関連ニュース
論文紹介: LLMの計画能力を評価するための拡張可能なベンチマーク「PlanBench」

arXivのプレプリントとして、LLMの計画生成と「変化についての推論」を評価するためのベンチマーク「PlanBench」が提案されています。 / 日常的な常識問題だけでは、LLMが本当に計画しているのか、それとも広い知識を検索しているだけなのか判別しにくい、という問題意識が示されています。 / PlanBenchは、自動計画分野、特にInternational Planning Competitionで使われるようなドメインに基づき、拡張しやすい形で設計されているとされています。

続きを読む