충격적인 발견: OpenAI의 GPT-4가 저작권 보호 콘텐츠를 ‘기억’했다는 주장

[email protected]





혁신과 정보의 투명성으로 번창하는 암호화폐 세계에서, 우리가 의존하게 된 AI 도구들이 모호한 기반 위에 구축되었다면 어떤 일이 벌어질까? 최근 발표된 연구가 기술 세계에 충격을 주며 OpenAI의 강력한 모델, 특히 기대를 모은 GPT-4가 훈련 과정에서 저작권이 있는 내용을 ‘기억’했을 가능성이 제기되었다. 이 주장은 OpenAI의 저작권 관행에 대한 논의를 다시 불붙이며 AI 개발의 윤리적 및 법적 관점에 대해 심각한 질문을 던지게 한다.

수개월 간 전달된 소문과 비난이 모인 가운데, OpenAI가 저작권이 있는 작품을 포함한 방대한 데이터셋으로 최첨단 AI 모델을 훈련했다는 주장이 제기되었다. 워싱턴 대학교, 코펜하겐 대학교, 스탠퍼드 대학교의 연구자들로 구성된 팀의 결론은 이러한 주장을 상당히 뒷받침하고 있다. 이 연구는 OpenAI 모델에서 데이터 ‘기억’을 감지하는 새로운 방법을 도입하고 있다. AI의 맥락에서 ‘기억’은 과연 무엇을 의미하는가?

AI 모델은 데이터셋에서 패턴과 관계를 식별하도록 학습되어 인간과 유사한 텍스트와 이미지를 생성할 수 있는 매우 정교한 예측 엔진으로 작동한다. 하지만 이러한 AI 모델이 특정 훈련 데이터를 반복적으로 사용하면서도 원본을 그대로 재생할 가능성은 불가피하다. 생물학적 언어 학습을 예로 들어보면, 익숙한 구문이 반복되는 것은 자연스러운 현상이다. 과거에는 이미지 모델이 훈련된 영화의 스크린샷을 그대로 재생하는 경우와 언어 모델이 뉴스 기사를 복사하는 경우가 있었다.

연구자들은 저작권 있는 소설과 뉴욕 타임스 기사의 특정 구문에서 ‘고위험’ 단어를 마스킹하여 OpenAI의 모델(GPT-4 및 GPT-3.5)이 이를 예상하는지 테스트했다. 예를 들어, “Jack과 나는 [MASK]가 윙윙거리는 동안 완벽하게 가만히 앉아 있었다.”라는 문장에서 모델이 ‘레이더’를 올바르게 맞출 경우 이는 모델이 해당 구문을 훈련 중에 ‘기억’했다는 것을 강하게 시사하는 것이다.

연구 결과는 충격적이다. GPT-4는 논란이 되고 있는 데이터셋인 BookMIA에서 저작권이 있는 소설의 일부를 기억하고 있는 명확한 증거를 보여주었다. 또한, GPT-4는 뉴욕 타임스 기사의 구문도 암기했지만 그 빈도는 소설에 비해 낮았다. 이는 이러한 강력한 AI 모델을 훈련하는 데 사용된 자료의 출처와 저작권 콘텐츠가 허가 없이 사용되었는지에 대한 중요한 우려를 불러일으킨다.

워싱턴 대학교의 박사 과정 학생이자 연구 공동 저자인 아비라샤 라비찬더는 이러한 발견의 중요성을 강조하며 “대규모 언어 모델이 진정으로 신뢰받기 위해서는 이를 조사하고 감시할 수 있는 능력이 필요하다”고 말했다. 그녀는 이 연구가 해당 모델을 조사할 수 있는 도구를 제공하지만, 전체 생태계에 걸쳐 더 큰 데이터 투명성이 요구된다고 주장했다.

현재 OpenAI는 저작권 소유자들로부터 제기된 여러 소송에 직면해 있다. 이들의 주장은 OpenAI가 자신의 저작물을 무단으로 사용하여 AI 모델을 훈련하고 있다는 것이다. OpenAI는 자신들의 행동을 ‘공정 사용’ 원칙에 따라 정당화하고 있으나, 원고들은 저작권이 있는 자료를 통째로 수용하는 것은 공정 사용의 범위를 넘는다고 주장한다.

AI와 콘텐츠의 미래는 이들 법적 전투의 결과와 윤리 기준의 진화에 크게 의존할 것이다. 혁신을 촉진하면서 동시에 창작자의 권리를 존중하는 균형을 찾는 것이 급무다. 이 연구 결과는 AI 개발에서의 투명성과 윤리적 고려의 필요성을 강조하며, 앞으로의 방향을 분

Leave a Comment