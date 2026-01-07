네이버클라우드 AI 모델도 ‘프롬 스크래치’ 논란
‘하이퍼클로바X 시드 32B 씽크’
알리바바 ‘큐웬 2.5’ 일부 차용
정부·업계 명확한 규정 부재, 혼란
네이버클라우드 인공지능(AI) 모델이 음성·이미지 처리 영역에서 중국 모델을 일부 차용한 사실이 알려지면서 논쟁이 일고 있다. 업스테이지에 이어 정부가 추진하는 ‘독자 AI 파운데이션 모델 사업’에 참여하는 정예팀이 또다시 기술 자립성 시비에 휘말린 것이다. 지난달 30일 대국민 발표회 이후 5개 정예팀의 모델이 오픈소스로 공개되면서 독자 개발 AI를 뜻하는 ‘프롬 스크래치’ 여부에 대한 검증이 계속 이어지고 있다. 하지만 평가 주체인 정부도 프롬 스크래치의 인정 범위를 명확히 규정하지 않아 혼란이 가중되는 상황이다.
6일 정보기술(IT) 업계에 따르면 네이버클라우드의 ‘하이퍼클로바X 시드 32B 씽크’ 모델은 중국 알리바바의 ‘큐웬 2.5’ 언어모델과 비전 인코더 웨이트(가중치)에서 코사인 유사도 99.51%, 피어슨 상관계수 98.98% 이상의 수치를 보인 것으로 알려졌다. 코사인 유사도와 피어슨 상관계수는 데이터 집합의 유사도를 보여주는 수치다. 즉 네이버클라우드의 모델이 큐웬의 비전 인코더와 웨이트를 일부 사용한 것으로 해석될 수 있는 결과가 나온 것이다.
네이버클라우드도 중국 오픈소스를 일부 가져다 쓴 점은 인정했다. 다만 큐원 2.5의 비전 인코더를 활용한 것은 글로벌 기술 생태계와의 호환성, 시스템 효율성 최적화 등을 고려한 ‘전략적 선택’이라고 설명했다. 특히 파운데이션 모델인 ‘하이퍼클로바X’의 핵심 추론 엔진은 100% 자체 기술로 개발한 프롬 스크래치 모델이라고 강조했다. 네이버클라우드 관계자는 “통상 비전·오디오 인코더는 잘 만들어진 것들을 가져다 쓰는 경우가 많다”며 “네이버클라우드 역시 독자적인 비전 인코더 기술을 갖고 있고, 향후 차용해 온 부분을 자체 기술로 대체해나갈 예정”이라고 말했다. 아울러 이러한 기술 선택 사항과 라이선스 정보는 허깅페이스와 테크리포트 등을 통해 명시했다고 말했다.
네이버클라우드와 업스테이지가 마주한 의혹은 모두 AI 모델을 아무것도 없는 초기 단계부터 개발하는 프롬 스크래치와 관련이 있다. 하지만 어디까지 자체 기술이 적용돼야 프롬 스크래치 모델이 되는가에 대해서는 별다른 기준이 없는 실정이다. 업계에서는 통상 모델의 가중치를 랜덤으로 초기화한 뒤 그 상태에서 처음부터 새로 학습하는 것을 프롬 스크래치로 보고 있다. 업스테이지 김성훈 대표가 지난 2일 공개 검증회에서 ‘솔라 오픈 100B’ 모델의 체크포인트(저장 파일)와 학습 로그를 공개한 이유이기도 하다.
이번 논란을 계기로 프롬 스크래치의 범위를 확실하게 규정해야 한다는 지적도 제기된다. 정부 역시 독자 AI 파운데이션 모델 사업의 주요 평가 기준 중 하나로 프롬 스크래치를 제시했지만, 세부적인 내용은 공개하지 않고 있다. 네이버클라우드는 이번 비전 인코더 차용이 프롬 스크래치 기준에 배치되냐는 질의에 “모델 평가를 진행하는 정부 판단에 맡길 사항”이라는 입장을 밝혔다.
박선영 기자 pomme@kmib.co.kr
GoodNews paper ⓒ 국민일보(www.kmib.co.kr), 무단전재, 수집, 재배포 및 AI학습 이용 금지
클릭! 기사는 어떠셨나요?
많이 본 기사
국민일보가 꼼꼼히 읽어보고 선정한오늘의 추천기사