
크라우드웍스는 자체적으로 개발한 AI 데이터 전처리 솔루션인 ‘알피 날리지 컴파일러(Alpy Knowledge Compiler)’의 핵심 기술에 대한 국내 특허를 출원했다고 22일 밝혔다. 이 특허는 문서의 복잡도를 정량 분석하여 전처리 자동화 효율을 높이는 것을 주요 내용으로 하고 있으며, 이는 국내 업계에서는 최초의 사례이다.
해당 기술은 RAG(검색증강생성) 기반 AI 에이전트 개발에 필수적인 비정형 데이터 전처리를 지원한다. 복잡한 문서에서 인식률 저하와 데이터 품질 저하 문제를 해결하기 위해 문서 구조의 복잡도를 분석하고, 이를 기반으로 자동화 범위와 전문가의 투입 여부를 결정할 수 있다. 실제로 전처리 대상 문서가 수십만 페이지에 달하는 경우도 많아, 리소스와 품질을 효율적으로 관리하는 전략이 필요하다.
크라우드웍스의 특허 기술은 문서의 복잡도를 Class 1에서 Class 4까지 네 단계로 구분하여, 구조가 단순한 문서는 자동화 처리하고 복잡한 문서는 전문가의 파싱(Parsing) 작업을 병행해 전체 전처리 품질을 향상시키는 방식으로 진행된다. 이렇게 하면 발생할 수 있는 오류를 사전에 예측하고, 투입 인력 및 예산, 일정 등을 효율적으로 관리할 수 있다. 파싱은 데이터 또는 문장의 구조를 분석하여 의미 단위로 분할하는 작업을 의미한다.
‘알피 날리지 컴파일러’는 다양한 문서를 AI가 이해할 수 있는 형태로 변환하며, Word, PPTX, PDF, Excel 외에도 한국 기업에서 많이 사용하는 HWP, HWPX 문서 변환을 지원한다. 복잡한 표나 차트 등 다양한 문서 요소를 정확하게 인식하고, 초대형 언어모델(LLM)을 통해 시각적 요소에 대한 메타데이터도 생성하는 기능을 갖추고 있다. 이는 비정형 데이터의 효과적인 전처리를 위한 중요한 역할을 하고 있다.
최근 AI 기술의 도입 확산으로 인해 기업 내 비정형 데이터 활용과 자산화의 중요성이 증가하면서, AI 기반 문서 자동화 도구에 대한 수요도 크게 늘고 있다. 크라우드웍스는 ‘알피 날리지 컴파일러’를 통해 다양한 산업군에서의 데이터 전처리 수요에 적극 대응하며, 기업용 AI 시장에서의 선도적 입지를 다질 계획이다.
김우승 크라우드웍스 대표는 “이번 특허 출원은 문서 복잡도 분석을 통해 AI 데이터 전처리의 효율성을 높인다는 점에서 국내 업계 최초로, 이를 통해 차별화된 경쟁력을 다시 한번 입증했다”며, “이미 많은 기업이 데이터 전처리 방식에 대해 관심을 보이고 있다”고 설명했다.
