글로벌 빅테크가 출시하는 생성형 인공지능(AI) 모델에 ‘오픈소스’ 수식어가 붙는 것에 대해 회의적인 시각이 커지고 있다. 빅테크들이 자사 AI 모델을 오픈소스 형태로 공개하겠다고 밝힌 것과 달리 개발 과정에서 사용한 핵심 코드와 훈련 데이터는 숨기고 있어서다. 오픈소스를 자처하는 AI 모델 상당수가 개방성과 투명성을 강조하면서도 개발에 필요한 기술은 공개하지 않는 ‘오픈워싱(Open-washing)’ 마케팅을 한다는 비판이 거세다.
27일 정보통신(IT) 업계에 따르면 올해 1월 저비용 고성능 AI 모델 ‘R1’을 선보이며 큰 파장을 일으킨 중국 스타트업 딥시크는 최근 ‘오픈소스 위크’를 진행하며 자사의 핵심 기술을 공개했다. 그동안 딥시크는 AI 코드와 가중치만 공개하고 학습 데이터와 훈련 과정은 밝히지 않았다. R1을 출시할 때부터 오픈소스 형태를 강조하며 대대적인 홍보를 벌였지만, 핵심 정보만 숨기면서 오픈워싱이라는 비판이 나오자 구체적인 데이터를 공개한 것으로 풀이된다.
딥시크는 오픈소스 위크 동안 R1 모델 개발의 핵심으로 꼽히는 그래픽처리장치(GPU) 최적화 기술 등의 내용을 상세히 밝혔다. 이외에 머신 러닝 접근 방식(MOE) 라이브러리와 AI 모델 학습 라이브러리를 공개했다. 마지막 날엔 모델 추론 시스템의 효율성을 향상시키는 ‘딥시크-V3/R1 추론 시스템 개요’ 기술 문서를 발표했다.
늦게라도 모든 것을 공개한 딥시크를 제외하고 AI 모델의 훈련 데이터, 핵심 코드, 가중치 등을 공개한 글로벌 빅테크는 전무하다. 생성형 AI 시대를 열었던 오픈AI도 회사 설립 당시의 취지와 달리 점차 폐쇄적으로 변했다. 자사 AI 모델 시리즈인 GPT-2까지는 핵심 코드를 공개했지만 GPT-3부터 모델을 비공개로 운영했다.
샘 알트먼 오픈AI 최고경영자(CEO)는 최근 레딧에서 진행한 인터뷰에서 딥시크의 부상을 언급하며 현재 자사의 오픈소스 전략이 잘못됐다고 말했다. 그러면서 오픈소스에 대해 더 개방적인 방향을 고려하는 등 자사의 폐쇄성을 개선하겠다는 취지의 답을 했다.
상대적으로 개방형 AI에 속하는 메타와 마이크로소프트(MS)도 모델의 훈련 데이터는 공개하지 않으면서 오픈소스 용어를 사용해 오픈워싱을 한다는 비판을 받고 있다. 현재 빅테크들은 자사 모델을 완전한 오픈소스로 전환할 경우 수익 모델이 위축될 가능성이 크고, 경쟁자에게 최신 기술을 공유해야 한다는 문제가 있어 고민이 깊은 상황이다.
전문가들은 오픈소스의 핵심인 개방성이 훼손되면 개발 생태계가 악화하고, 개방된 데이터를 바탕으로 새로운 혁신을 이끌어내는 것이 어려워질 것이라고 내다봤다. 김택완 한국오픈소스협회 회장은 “오픈소스는 인류에게 필요한 기술을 공동으로 개발해 다 같이 발전하자는 일종의 사회운동 같은 개념”이라면서 “폐쇄성을 지향하는 건 소프트웨어 기술 발전에 역행하는 행위”라고 말했다.
나경연 기자 contest@kmib.co.kr