実在する公開試験の問題を集め、LLMを評価するためのベンチマーク「M3Exam」を提案するプレプリントです。 / 9言語、12,317問、3つの教育段階を含み、約23%の問題は画像処理が必要とされています。 / 著者らは、従来のNLPベンチマークよりも、人間の試験のほうが言語理解、知識、問題解決などを広く見られると述べています。