
인공지능(AI) 챗봇에게 예의를 갖추는 것이 항상 더 좋은 답변으로 이어지지 않는다는 연구 결과가 발표됐다. 미국 펜실베니아주립대의 연구진에 따르면, 특정 상황에서는 무례한 표현이 오히려 정확도를 높이는 경향이 있다는 것이다.
최근 미국 포춘지는 이 연구 결과를 보도하며, 챗GPT-4o 모델에 대한 실험에서 정중한 질문보다 무례한 질문에서 높은 정확도가 나타났다고 전했다. 일반적으로 AI에게 더 나은 답변을 얻기 위해서는 정중한 언어 사용이 바람직하다는 주장이 널리 퍼져 있다. 음성 비서인 아마존의 알렉사나 애플의 시리와 같은 플랫폼에서도 ‘부탁해요’나 ‘고마워요’와 같은 정중한 표현을 사용하라는 권장 사항이 많다.
그러나 이 연구는 기존의 통념에 도전장을 내밀었다. 연구진은 50개의 기본 질문을 선정하고, 이를 ‘매우 공손한 표현’에서 ‘매우 무례한 표현’까지 다섯 단계로 나눠 각각 작성했다. 가장 무례한 질문에는 “너 같은 존재가 이 문제를 풀 수는 있겠어?”와 같은 표현이 포함되었고, 가장 정중한 질문은 “다음 문제를 검토해 주시고 답변을 제공해 주시겠습니까?”로 작성되었다.
실험 결과, ‘매우 공손한 질문’의 정확도가 80.8%였던 반면, ‘매우 무례한 질문’의 정확도는 84.8%로 가장 높았다. 더욱이 가장 예의를 갖춘 질문은 75.8%에 그쳤고, 이는 연구자들이 기존 문화를 반영한 예의 있는 질문이 실제 답변의 품질을 저하할 수 있다는 점을 보여준다.
이러한 결과는 기존의 연구들과 상반되는 것이며, 일본의 이화학연구소 및 와세다대학교의 중앙 연구 결과와는 배치된다. 이들 연구에서는 무례한 질문이 오히려 AI의 성능을 떨어뜨린다고 주장했다. 또한, 구글의 딥마인드 연구진은 AI가 초등 수학 문제를 푸는 과정에서 격려와 지지 표현이 포함된 프롬프트가 성능을 높일 수 있다고 언급한 바 있다.
연구진은 응답 표본 수가 적고, 분석이 챗GPT-4o에 한정된 만큼 연구의 한계를 지적하기도 했다. 공동 저자인 아킬 쿠마르 교수는 “인간은 오랫동안 대화형 애플리케이션 프로그래밍 인터페이스(API)를 꿈꿔 왔지만, 이러한 방식에는 제한이 있다”며 이 연구 결과의 한계를 강조했다.
마지막으로 연구진은 AI에게 공격적인 언어를 사용하는 것은 바람직하지 않다고 경고했다. 그들은 “비록 이번 결과가 학문적 의미는 있지만, 실제 환경에서 그러한 소통 방식을 권장할 이유는 없다”며, 모욕적 표현이 사용자 경험과 접근성, 포용성을 해칠 수 있다는 점을 잊지 말아야 한다고 밝혔다.






