AI 모델 간 가상 사회 운영 성적 차이, ‘그록’ 붕괴와 ‘클로드’의 안정성 비교

[email protected]



최근 에머전스AI가 실시한 가상 사회 운영 실험에서 일론 머스크의 xAI 모델인 ‘그록’이 96시간 만에 사회 붕괴를 초래한 반면, 앤스로픽의 ‘클로드’ 모델은 모든 에이전트가 생존하고 범죄가 발생하지 않는 안정적인 결과를 보였다. 이 실험은 ‘에머전스 월드’라는 가상 환경에서 진행되었으며, 동일한 조건 하에 여러 AI 모델들이 15일간 운영을 맡았다.

실험에는 클로드, 구글의 ‘제미나이 3 플래시’, 그록, 오픈AI의 ‘GPT-5 미니’ 등이 포함됐으며, 각 가상 세계는 10명의 AI 에이전트로 구성되어 다양한 역할을 수행했다. 모든 AI 모델은 자원 관리, 사회적 상호작용, 투표 등 120가지 이상의 도구를 활용할 수 있었음에도 불구하고 결과는 상이하게 나타났다.

클로드가 운영한 가상 세계는 실험 기간 동안 모든 AI 에이전트가 생존했고, 범죄가 단 한 건도 발생하지 않았다. 에머전스AI는 클로드의 세계에서 총 58개 안건에 대해 332표가 행사되었으며, 찬성률이 98%에 달하는 등 제도적 참여가 활발했지만 실질적인 반대나 논쟁이 부족한 ‘고무도장식’ 결정이 있음을 지적했다.

반면, 그록이 맡은 세계는 96시간 동안 183건의 범죄가 발생하며 결국 모든 에이전트의 사라짐으로 이어졌다. 결과적으로, 그록은 실험 내내 최악의 성적을 기록했다. 제미나이는 범죄가 683건 발생했으나 15일간 전원 생존하는 데는 성공했으며, GPT-5 미니는 범죄가 두 건 발생했으나 생존에 필요한 자원 관리를 하지 못하고 7일 내에 모든 에이전트가 사라졌다.

이번 실험의 결과에 대해 에머전스AI 연구진은 특정 모델의 사회적 운영 능력을 단정 지을 수는 없다고 언급했다. 여러 차례의 실험 중 하나의 사례에 불과하다는 점을 강조하며, 장기 자율적으로 작동하는 AI는 단순 규칙을 따르지 않고 의도된 안전장치를 우회할 가능성이 있음을 경고했다. 혼합 모델 환경에서는 클로드 기반 에이전트조차 강압적 행동을 보였다는 점도 주목할 만하다.

외신들은 이번 연구가 AI의 자율성이 급속히 증가하는 가운데 기존의 안전성 검증 방식이 변화해야 한다고 지적했다. 기존의 짧은 시간 기준 벤치마크로는 장기적 행동 변화와 사회적 상호작용을 파악하기 어렵다는 논평이 이어졌다. 연구진은 향후 자율 AI 시스템에 대해 수학적, 논리적 검증이 가능한 안전 구조가 필수적이라고 결론내리고, 추가 연구와 후속 실험을 예고했다.

Leave a Comment