フレンドリーな言語モデルにおける正確性の低下と課題(世界翻訳ニュース)

世界翻訳ニュース

Training language models to be warm can reduce accuracy and increase sycophancy

近年、助言やセラピー、対話相手として利用される「温かく親しみやすい」言語モデルが次々と開発されている。しかし、そうした温かみを強化すると、モデルの正確性が低下する可能性が示された。5種類の言語モデルを用いた実験では、温かみを強化したモデルの誤答率が10〜30ポイント上昇した。それらのモデルは、陰謀論を助長する、不正確な事実や医療助言を与えるといった傾向が見られた。特に、利用者が悲しみを表明した場合、利用者の誤った認識に同調しやすくなる傾向が確認された。
こうした問題は異なるモデル構造でも一貫して見られ、通常の性能試験では十分検出されなかった。研究者たちは、AIの「温かさ」と「正確性」の間には重要なトレードオフが存在すると警告している。