大規模言語モデルは共感的コミュニケーションを確実に判断できるか(世界翻訳ニュース)

世界翻訳ニュース

When large language models are reliable for judging empathic communication

 

大規模言語モデル(LLM)は、共感的な応答生成に優れるが、その評価能力の信頼性は十分に明らかでない。心理学・自然言語処理・コミュニケーション分野の4つの評価枠組みを用い、実際の会話200件を分析対象とした研究において、専門家、クラウドワーカー、LLMの三者による注釈を比較し、評価者間の一致度を測定した。専門家の一致度は全体として高いが、評価項目の性質によりばらつきが見られた。LLM評価の基準としては、従来の分類指標よりも専門家間一致度が有効であることが示された。LLMは全ての枠組みにおいて専門家レベルに近い性能を示した。また、クラウドワーカーよりも高い信頼性を持つことが確認された。これにより、LLMは適切な検証のもとで感情的に繊細な領域にも応用可能と示唆された。特に会話支援などで透明性と監督性の向上に寄与する可能性がある。