arXivのプレプリントとして公開された、ヒトと大規模言語モデル(LLM)の「アウト・オブ・ディストリビューション」推論を比べる研究です。 / 計画立案と説明生成の2領域で、人とLLMを比較する新しいベンチマークを提案しています。 / 結果として、提示された条件や問題が学習分布から外れると、人のほうがLLMより頑健だったと報告されています。