German Gov-Backed AI Benchmark Tracks Large Language Models in 200 Languages
ドイツ連邦経済協力開発省(BMZ)、国際協力公社(GIZ)、およびドイツ人工知能研究センター(DFKI)によって共同開発された「AI言語能力モニター」は、最大200言語にわたる大規模言語モデル(LLM)の性能を追跡しており、とりわけリソースの限られた言語に重点を置いている。このベンチマークには、代表的な多言語データセットを用いた評価が含まれており、AI翻訳、質問応答、数学、分類、事実性確認といった多様なタスクに関するモデル別および言語別のスコアが提供され、研究者や開発者、政策立案者がモデル性能の強みや課題を把握するのを支援する。