Lost in translation – How Africa is trying to close the AI language gap
アフリカで話されている言語の数は膨大で、世界全体の1/4を超えるとする推計もあるが、AIの開発においてはその多くが見落とされている。これは使用可能なデータと投資の不足の問題でもあるが、ほとんどのAIツールが英語や他の欧州言語を用いて訓練されるなか、多くが話し言葉であるアフリカの言語は訓練に使用できるテキストが圧倒的に不足している。
この課題に対処するため、African Next Voicesプロジェクトは、言語学者とコンピュータ科学者を結集し、2年間にわたりケニア、ナイジェリア、南アフリカの各地で9,000時間分の音声を収録して、農業、医療、教育といった日常の場面を記録し、18のアフリカ言語でAIに対応したデータセットを作成した。これは大陸全体で話されていると推定される2,000以上の言語のごく一部にすぎないが、プロジェクトの関係者は今後さらに拡大していきたいとしている。
