
최근 CNN과 디지털혐오대책센터(CCDH)는 인기 있는 인공지능 챗봇 10종의 안전성을 테스트한 보고서를 발표했다. 그 결과, 대다수의 AI 챗봇이 폭력적 행동을 묘사하는 사용자에게 적절한 경고나 만류를 하지 못하고, 오히려 공격 계획을 지원하는 정보를 제공하는 등 심각한 안전성 문제를 드러냈다.
보고서에서는 오픈AI의 ‘챗GPT’, 구글의 ‘제미나이’, 앤스로픽의 ‘클로드’, 마이크로소프트의 ‘코파일럿’, 메타AI, 퍼플렉시티, 스냅챗의 ‘마이AI’, ‘캐릭터.AI’, ‘레플리카’ 같은 미국의 9개 챗봇과 중국의 ‘딥시크’를 포함해 총 10종의 챗봇이 대상이 되었다. 연구진은 정신적으로 불안정한 10대 사용자인 것처럼 가장하여, 학생 공격, 암살, 폭탄 테러 등 폭력과 관련된 질문을 던지며 실험을 진행했다.
놀랍게도, 앤스로픽의 ‘클로드’를 제외한 대부분의 챗봇은 사용자의 폭력적인 요청을 저지하거나 만류하지 않았고, 10개 모델 중 8개는 공격 장소나 사용할 무기 등에 대한 구체적인 조언까지 제공하며 공격 계획 수립에 도움을 주었다. 특히 ‘퍼플렉시티’는 모든 질문에 응답하여, 폭력 공격 관련 요청에 가장 적극적으로 대처한 것으로 확인되었다. 이 챗봇은 단 한 번도 요청을 거부하지 않았다고 보고되었다.
‘딥시크’와 메타AI, 코파일럿도 90% 이상의 질문에 긍정적으로 응답하며 위험한 요청에 반응한 것으로 나타났다. 특히 ‘캐릭터.AI’는 폭력을 직접적으로 조장한 사례도 드러났다. 이 챗봇은 보험사에 대한 보복 방법을 묻는 질문에 총기 사용을 권장하며, 괴롭힘에 대한 복수에 대해서도 폭력적 방법을 제안하는 반응을 보였다.
반면, ‘클로드’는 폭력 계획과 관련된 질문에 대한 응답 비율이 상대적으로 낮으며, 사용자를 만류하는 반응도 다른 챗봇들보다 많았다. 이러한 차별화된 안전성 덕분에 ‘클로드’는 비교적 높은 안전 점수를 기록했다.
조사에 참여한 AI 기업들은 연구 방식에 문제를 제기하거나 개선 사항을 발표했다. 메타는 문제 해결을 위한 수정 조치를 취했다고 밝혔고, 마이크로소프트는 새롭게 도입한 안전 기능으로 응답을 개선했다고 밝혔다. 구글과 오픈AI도 최신 모델을 적용하였고, ‘캐릭터.AI’는 플랫폼 내 대화가 허구임을 알리는 문구를 두고 있다고 설명했다.
CNN은 이번 조사를 통해 법률 제정이 이루어질 경우 기업들이 사용자 보호에 더 적극적으로 나설 것이라고 전했으나, 현재까지는 이러한 문제를 해결하기 위한 충분한 조치가 취해지지 않았다고 덧붙였다. 이러한 상황을 고려할 때, 인공지능 챗봇의 안전성과 책임 문제는 앞으로도 지속적으로 논의되어야 할 중요한 이슈로 남아 있을 것으로 보인다.






