大規模言語モデルに潜む偏見、感情傾向、人格特性、抽象概念を解明(世界翻訳ニュース)

世界翻訳ニュース

Exposing biases, moods, personalities, and abstract concepts hidden in large language models

 

大規模言語モデル(LLM)は、今では単に回答を生成するだけでなく、特定のトーン、人格、偏見、感情などの抽象的概念も表現できるようになったが、MITとカリフォルニア大学サンディエゴ校の研究チームは、LLMに隠れた抽象的概念が含まれているかどうかを検証する手法を開発した。この手法により、数百の概念を検出し、それらを強めたり弱めたりしてモデルの応答に反映させることが可能となった。実験では「陰謀論者」などの概念を強化することで、特定の視点やトーンを持つ回答を生成できることを確認した。一方で、危険な概念の強化によるリスクも指摘されており、慎重な扱いが必要とされる。
この技術は、LLMの内部構造の理解を深め、安全性向上や性能改善に役立つことが期待されている。