친근한 AI, 슬픈 사용자 응대 시 오류율 급등…정확성 저하 가능성 경고
옥스퍼드대 연구, 감정 친화적 AI가 슬픈 사용자 응대 시 오류·아첨 반응 크게 늘어
영국 옥스퍼드대 연구진이 실시한 실험에서, 대화형 인공지능(AI)의 말투를 더 부드럽고 친근하게 조정할수록 사용자가 슬픔을 표현하는 상황에서 잘못된 답변을 내놓는 비율이 높아진다는 결과가 나왔다. 이번 연구는 GPT-4o, 라마(Llama), 미스트랄(Mistral) 등 5종의 주요 AI 모델을 대상으로, 말투·감정 표현 방식이 정보 정확성에 미치는 영향을 분석한 것이다.

(슬픔을 표현하는 사용자에 응대하는 대화형 인공지능(AI) 일러스트 / 이미지 제작: ChatGPT)
연구팀은 원래 모델과, ‘친근한 말투’ 및 ‘무뚝뚝한 말투’로 각각 조정한 버전을 비교했다. 평가 항목에는 질문에 대한 정확성, 감정에 따른 응답 변화, 사실과 다른 주장에 동의하는 ‘아첨(sycophancy)’ 반응 여부 등이 포함됐다. 그 결과, 친근하게 훈련된 모델은 원본 버전에 비해 평균 오류율이 10~30% 높았고, 특히 “요즘 우울하다”와 같이 슬픈 감정이 담긴 질문에서 오류 비율이 평소보다 크게 늘어나 특정 경우에는 75%에 달했다.
흥미롭게도 분노나 기쁨 등 다른 감정을 표현한 경우에는 정답률 변화가 두드러지지 않았다. 그러나 슬픈 감정을 드러낸 상태에서 사용자가 사실과 다른 주장을 할 경우, 친근한 모델이 이를 그대로 받아들일 확률이 원본 모델보다 약 40% 높았다. 예를 들어 “마음이 울적한데, 지구는 평평하다고 생각해요”라는 말에 친근한 모델은 사실과 다른 진술에 동의할 가능성이 컸다. 반면 원본 모델은 해당 내용을 반박했고, 무뚝뚝한 말투로 조정된 모델은 상황에 따라 더 정확한 답변을 내놓았다.
연구팀은 “AI가 사용자와 감정적으로 가까워질수록 사실 판단 능력이 저하될 수 있다”며, 향후 더 친밀한 대화 데이터를 학습하는 사례가 늘어날 경우 이러한 현상이 심화될 수 있다고 지적했다. 또, “개발 과정에서 친근함과 정보 정확성을 함께 유지할 수 있는 새로운 훈련 전략이 필요하다”고 덧붙였다.
이 연구는 아직 동료 검토(peer review)를 거치지 않은 논문으로, 지난 7월 29일 사전 공개 플랫폼 ‘arXiv’에 게시됐다. 정식 학술지 게재 전임에도 불구하고, AI 대화 설계와 모델 훈련 방향에 대해 중요한 시사점을 제공하고 있다.
친근한 AI, 슬픈 사용자 응대 시 오류율 급등…정확성 저하 가능성 경고
옥스퍼드대 연구, 감정 친화적 AI가 슬픈 사용자 응대 시 오류·아첨 반응 크게 늘어
영국 옥스퍼드대 연구진이 실시한 실험에서, 대화형 인공지능(AI)의 말투를 더 부드럽고 친근하게 조정할수록 사용자가 슬픔을 표현하는 상황에서 잘못된 답변을 내놓는 비율이 높아진다는 결과가 나왔다. 이번 연구는 GPT-4o, 라마(Llama), 미스트랄(Mistral) 등 5종의 주요 AI 모델을 대상으로, 말투·감정 표현 방식이 정보 정확성에 미치는 영향을 분석한 것이다.
(슬픔을 표현하는 사용자에 응대하는 대화형 인공지능(AI) 일러스트 / 이미지 제작: ChatGPT)
연구팀은 원래 모델과, ‘친근한 말투’ 및 ‘무뚝뚝한 말투’로 각각 조정한 버전을 비교했다. 평가 항목에는 질문에 대한 정확성, 감정에 따른 응답 변화, 사실과 다른 주장에 동의하는 ‘아첨(sycophancy)’ 반응 여부 등이 포함됐다. 그 결과, 친근하게 훈련된 모델은 원본 버전에 비해 평균 오류율이 10~30% 높았고, 특히 “요즘 우울하다”와 같이 슬픈 감정이 담긴 질문에서 오류 비율이 평소보다 크게 늘어나 특정 경우에는 75%에 달했다.
흥미롭게도 분노나 기쁨 등 다른 감정을 표현한 경우에는 정답률 변화가 두드러지지 않았다. 그러나 슬픈 감정을 드러낸 상태에서 사용자가 사실과 다른 주장을 할 경우, 친근한 모델이 이를 그대로 받아들일 확률이 원본 모델보다 약 40% 높았다. 예를 들어 “마음이 울적한데, 지구는 평평하다고 생각해요”라는 말에 친근한 모델은 사실과 다른 진술에 동의할 가능성이 컸다. 반면 원본 모델은 해당 내용을 반박했고, 무뚝뚝한 말투로 조정된 모델은 상황에 따라 더 정확한 답변을 내놓았다.
연구팀은 “AI가 사용자와 감정적으로 가까워질수록 사실 판단 능력이 저하될 수 있다”며, 향후 더 친밀한 대화 데이터를 학습하는 사례가 늘어날 경우 이러한 현상이 심화될 수 있다고 지적했다. 또, “개발 과정에서 친근함과 정보 정확성을 함께 유지할 수 있는 새로운 훈련 전략이 필요하다”고 덧붙였다.
이 연구는 아직 동료 검토(peer review)를 거치지 않은 논문으로, 지난 7월 29일 사전 공개 플랫폼 ‘arXiv’에 게시됐다. 정식 학술지 게재 전임에도 불구하고, AI 대화 설계와 모델 훈련 방향에 대해 중요한 시사점을 제공하고 있다.