AI 혁신의 핵심, 데이터 플라이휠과 새로운 생태계

[email protected]



Scale AI는 2024년 약 8억 7천만 달러의 매출을 기록할 것으로 예상되며, 2025년에는 약 20억 달러에 달할 것이라는 전망이 나오고 있다. 이는 고품질의 실시간 데이터 운영이 단순한 비용 절감을 넘어, 실질적인 수익 창출의 원동력이 될 수 있음을 보여준다. 이러한 매출 성장세는 지속적인 주석(annotation), 평가(evaluation), 레드팀 구성(red teaming), 합성 데이터(synthetic data) 파이프라인이 현대 인공지능(AI) 경제의 핵심적 역할을 수행하고 있음을 시사한다.

전 세계적으로는 2025년까지 약 181제타바이트의 데이터가 생성될 것으로 예상되며, 이는 하루 평균 약 1조 4,500억 기가바이트에 해당한다. 이러한 데이터 양은 AI 학습과 추론 과정에서 데이터 계층이 전략적 핵심 역할을 할 수밖에 없는 이유를 설명한다. 실시간으로 고품질의 데이터 스트림을 제공함으로써 AI 모델은 더욱 빠르게 학습하고, 개인화(personalization) 수준을 높일 수 있게 된다.

과거에는 데이터와 컴퓨팅 자원의 접근이 몇몇 주요 Web2 플랫폼에 집중되어 있었으나, 현재는 이러한 구조가 변화하고 있다. AWS, Azure, Google Cloud는 2025년 기준으로 전 세계 클라우드 인프라 지출의 약 3분의 2를 차지하고 있으며, 이는 공급업체 종속성을 강화하고 있으며, 소규모 개발자들은 높은 진입 장벽에 부딪치고 있다. Microsoft가 2030년까지 Azure에서 OpenAI의 API를 독점적으로 호스팅할 예정이란 점도 주요 AI 워크로드가 특정 하이퍼스케일러에 계속 묶여 있음을 시사한다.

이와 관련하여 Impossible Cloud Network Foundation의 세바스찬 파이퍼 상무는 실시간 데이터 생태계를 구축하기 위한 핵심 과제가 데이터 기여자, 컴퓨팅 플랫폼, AI 개발자 간의 이해관계가 어긋나 있다는 점이라고 지적했다. 데이터 제공자들은 통제력 상실과 부적절한 보상에 대한 우려가 크며, 컴퓨팅 제공업체들은 자원 할당의 경제성에 어려움을 겪고 있고, AI 개발자들은 고품질 실시간 데이터와 확장 가능한 컴퓨팅 자원에 대한 접근 장벽에 직면해 있다.

이러한 문제를 해결하기 위한 한 가지 접근 방식으로 등장한 것이 바로 토큰화된 마켓플레이스이다. 이 플랫폼들은 ‘컴퓨트 투 데이터(compute-to-data)’와 같은 개인정보 보호 메커니즘을 통해 데이터 제공자가 주권을 유지하면서도 민감한 데이터를 노출하지 않고도 공유할 수 있도록 한다. 파이퍼 상무는 Web3 기반 솔루션이 기존 데이터 사일로 구조를 해체하고 있으며, 탈중앙화된 데이터 마켓플레이스와 컴퓨팅 네트워크가 투명하고 공정한 보상을 제공하는 개방형 시장을 형성하고 있다고 강조했다.

또한, 엣지 AI(Edge AI)도 이 새로운 인프라 환경에서 주목받고 있다. 엣지 AI는 데이터 생성 지점에 가까운 기기에서 의사결정 기능을 직접 수행하며, 이는 중앙 집중식 데이터 센터에서 이루어지는 전통적인 방식에 대한 대안으로 대두되고 있다. 이러한 구조는 비용 절감은 물론, 반응 속도를 높이는 효과를 제공한다.

그러나 이러한 모든 발전에도 불구하고, 실시간 데이터-컴퓨팅-인센티브 정렬을 매끄럽게 구현하는 문제는 여전히 해결되지 않은 과제로 남아 있다. 파이퍼 상무는 AI 결과물에 기반해 기여자에게 보상을 제공할 수 있는 전 세계적으로 통용되는 프레임워크의 필요성을 강조하면서, 이 시스템이 아직 부재하다고 설명했다.

기술 기반 기업가들에게는 이러한 구조적 변화가 다양한 분야에서 새로운 데이터 기반 모델을 설계할 수 있는 기회를 제공하고 있다. 그리고 기존 AI 대기업들은 협력적이고 공정성을 갖춘 AI 모델 채택에 대한 압박을 받고 있다. 이로 인해 실시간 데이터 생태계와 탈중앙화된 컴퓨팅, 엣지 AI의 결합은 AI 혁신이 단순히 대기업에 의존

Leave a Comment