증가하는 AI 벤치마크 비용: 추론 모델의 현실적인 비용 문제

[email protected]





인공지능(AI) 분야는 급속도로 발전하고 있으며, OpenAI와 같은 연구소들은 복잡한 문제를 단계적으로 해결할 수 있는 ‘추론’ 모델을 통해 새로운 경계를 일으키고 있다. 이러한 모델들은 특히 물리학과 같은 복잡한 분야에서 뛰어난 성능을 보여준다. 그러나 문제는 이러한 주장을 검증하는 데 드는 비용이 갈수록 증가하고 있어 독립적인 평가에 큰 장애물이 되고 있다는 점이다. 암호화폐에 대한 투명성과 검증 가능성을 중시하는 투자자들은 AI 벤치마크가 안고 있는 이러한 문제에 대해 많은 의문을 제기하고 있다.

AI 벤치마크 비용의 현실적인 문제를 살펴보면, 제3자 AI 테스트 기업인 Artificial Analysis는 이러한 고급 추론 모델을 평가하는 데 드는 비용이 급증하고 있다고 지적한다. 예를 들어, OpenAI의 o1 추론 모델을 7개의 인기 AI 테스트(MMLU-Pro, GPQA Diamond, MATH-500 등)를 통해 벤치마크하는 데 무려 $2,767.05가 소요된다. 동시에 Anthropic의 Claude 3.7 Sonnet는 같은 기준으로 $1,485.35가 드는 것으로 나타났다. 이와 비교해 OpenAI의 o3-mini-high는 $344.59로 상대적으로 저렴하지만 여전히 상당한 비용이다.

이와 같은 이유로 Artificial Analysis는 약 5,200불을 지출하여 단 12개의 추론 모델을 평가한 반면, 80개가 넘는 비추론 모델을 분석하는 데에는 약 2,400불에 그쳤다. 예를 들어, OpenAI의 비추론 모델인 GPT-4o를 벤치마크하는 비용은 단 $108.85에 불과하며, Claude 3.6 Sonnet은 $81.41로 더 저렴하다.

AI 벤치마크 비용이 상승하는 주된 원인은 토큰 생성이다. 추론 모델은 본질적으로 비추론 모델에 비해 훨씬 더 많은 토큰을 처리하고 생성하기 때문에 비용이 증가한다. AI 벤치마크 테스트 중 OpenAI의 o1 모델은 무려 4,400만 개 이상의 토큰을 생성한 것으로 보고되는데, 이는 GPT-4o보다 8배 많은 수치이다. 이러한 막대한 토큰 출력은 직접적으로 더 높은 비용으로 이어진다. 더욱이, 현대의 벤치마크는 복잡한 현실 과제를 평가하기 위해 설계되었기 때문에, 모델이 빈번히 여러 단계의 문제를 파악하고 해결하면서 더 많은 토큰을 생성하게 된다.

그러나 이러한 높은 비용은 독립적인 검증에 상당한 도전을 제기한다. AI 스타트업 General Reasoning의 CEO인Ross Taylor는 Claude 3.7 Sonnet을 3,700개의 프롬프트로 평가하는 데 $580의 비용을 지출했다고 강조하며, MMLU Pro의 단일 실행이 $1,800 이상 소요될 것으로 추정하고 있다. 이러한 비용 장벽은 AI 연구의 재현성에 대한 중요한 질문을 제기한다. 잘 자금이 지원된 연구소만이 정밀한 벤치마킹을 수행할 수 있다면, 과연 보고된 결과들이 보편적으로 검증된 과학으로 간주될 수 있을까? 그는 “누군가가 동일한 모델로 결과를 복제할 수 없다면, 그 결과는 과학이라고 할 수 있겠는가?”라고 반문한다.

AI 연구의 투명성과 독립 검증의 중요성이 더욱 강조되는 가운데, 일부 AI 연구소가 벤치마킹을 위한 모델에 대한 보조 접근을 제공하는 것도 잠재적인 편향을 도입할 수 있다. 이러한 상황은 암호화폐 커뮤니티와 유사한 면모를 보인다. 여기서도 투명성과 독립적인 검증이 필수적이다. 현재 AI 벤치마크 비용 상승은 단순한 기술적 이슈가 아니라 경제적 및 철학적 문제로도 부각되고 있다. AI가 다양한 부문, 나아가 알고리즘 거래나 분석 등을 통해 암호화폐 시장에 영향을 미칠 가능성이 있는 만큼, AI 성능의 투명성과 검증 가능성을 확보하는 것이 중요하다. 따라서 업계는 독립적인 AI 평가를 위한 지속 가능하고 접근 가능한 솔루션 탐색의 필요성에 직면해 있다

Leave a Comment