무료 AI 도구 중 가장 정확한 답변 제공하는 구글 ‘AI 모드’ 1위, 챗GPT 2위

[email protected]



최근 미국 워싱턴포스트(WP) 보도에 따르면, 무료 AI 검색 도구 가운데 가장 높은 정확도로 답변을 제공하는 AI는 구글의 ‘AI 모드’로 나타났다. WP는 미국의 공공 및 대학 도서관 사서들과 협력하여 진행한 AI 검색 도구 테스트에서 구글 AI 모드가 가장 우수한 성적을 기록했다고 밝혔다.

이번 테스트는 구글 AI 모드, AI 오버뷰, 챗GPT(오픈AI), 클로드(앤스로픽), 메타 AI, 그록(xAI), 퍼플렉시티, 빙 코파일럿(마이크로소프트) 등 9개의 주요 AI 도구를 대상으로 하였으며, 챗GPT는 최신 모델인 GPT-5와 GPT-4 터보를 포함하여 테스트에 참여했다. 구글 AI 모드는 웹을 깊이 검색하고 여러 출처를 종합하여 답변을 제공하는 구조를 갖추고 있으며, AI 오버뷰는 사용자에게 검색 결과를 요약해 주는 역할을 한다.

이들 AI 도구는 총 30개의 어려운 질문에 대해 900개의 답변을 평가받았으며, 모든 도구는 무료 기본 버전으로만 테스트되었다. 질문은 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향, 이미지 인식 등 5가지 분야로 나누어져 진행됐다. 그 결과 구글 AI 모드는 100점 만점에 60.2점을 받아 가장 높은 점수를 차지하였다. 챗GPT는 55.1점으로 2위를, 퍼플렉시티는 51.3점으로 3위를 기록했다. 그록3는 40.1점으로 8위, 메타 AI는 33.7점으로 가장 낮은 점수를 받았다. 참고로 그록의 최신 모델인 그록4는 무료 버전이 없어 이번 테스트에 포함되지 않았다.

특히 구글 AI 모드는 퀴즈와 최신 사건 부문에서 가장 정확한 답변을 제공한 것으로 평가되었고, 빙 코파일럿은 전문 출처 검색에서 높은 점수를 기록하였다. 이미지 인식 부문에서는 퍼플렉시티가 우수한 성과를 보였다. 챗GPT의 경우, GPT-4 터보가 가장 균형 잡힌 답변을 제공했던 반면, GPT-5는 전반적으로 성능 향상을 보였으나 일부 분야에서는 GPT-4보다 낮은 점수를 기록한 것으로 나타났다.

그럼에도 불구하고 AI들은 정보의 최신성 및 출처의 신뢰성을 평가하는 데 어려움을 겪으며, 이른바 ‘할루시네이션’ 현상으로 인해 잘못된 답변을 자신 있게 내놓는 경우가 많았다. 이를 통해 WP는 AI가 모든 질문에 대해 정확한 답변을 제공하지 못하는 한계를 드러내며, AI의 답변을 무조건적으로 신뢰하기보다는 출처 검증과 함께 비판적 사고가 필요하다는 점을 강조하였다.

이로 인해 사용자들은 AI 기술이 발전하고 있긴 하지만, 여전히 그 한계와 부작용에 주의를 기울여야 할 필요성이 강조되고 있다. 이러한 결과는 향후 AI 기술의 발전 방향에 대한 중요한 시사점을 제공한다.

Leave a Comment