역대 가장 강력한 인공지능(AI)가 등장했다. 이 AI의 지능지수(IQ)는 인간의 평균치인 100을 넘어선 것으로 평가된다. 연구 논문도 3초 만에 요약하는 이해력을 갖췄다. AI 스타트업 앤트로픽이 만든 거대언어모델(LLM) ‘클로드3’의 이야기다. 오픈AI와 구글 등과의 AI 패권 경쟁에서 곧바로 우위를 점할 거라는 관측도 나온다.
13일 정보기술(IT) 업계에 따르면 앤트로픽이 지난 4일(현지시간) 클로드3를 출시하자 주요 외신들은 일제히 기대감을 표하고 나섰다. 클로드3가 다양한 벤치마크 시험에서 오픈AI ‘GPT-4’와 구글 ‘제미나이 울트라’를 넘어서는 성능을 나타냈기 때문이다. 예를 들어 대학 학부 수준의 지식(MMLU), 대학원 수준의 추론(GPQA), 기본 수학(GSM8K) 등 모든 분야에서 클로드3는 현재까지 나온 생성형 AI 중 가장 강력한 성능을 나타냈다.
데이터분석가 맥심 로트가 진행한 IQ 테스트에서 클로드3는 인간 평균치인 100을 넘어섰다. 로트는 다양한 AI 모델에 노르웨이 멘사의 IQ 테스트를 2번씩 진행했다. 여기에서 클로드3는 IQ 101을 기록했다. GPT-4의 경우 85를 기록했다. 이어 빙 코파일럿은 79, 구글 제미나이 77.5 등의 순이었다. 클로드3가 인간에 가장 가까운 지능을 가진 것이다.
클로드3는 특히 긴 글을 처리하는 능력이 뛰어나다. 책 1권에 해당하는 15만개 단어 분량을 몇 초 만에 분석한 뒤 요약해낸다. IT매체 더버지는 “방대한 데이터를 분석해 정확하게 정보를 기억하고 요약하는 능력은 거의 완벽에 가깝다”면서 “데이터 속 오류를 찾아내는 ‘건초더미 속 바늘 찾기’ 평가에서도 99%의 정확도를 보였다”라고 평가했다.
특이한 점은 ‘의심할 줄 아는 AI’라는 것이다. 클로드3의 최고 성능 버전인 ‘오퍼스’는 성능 평가 중 자신을 테스트하고 있다는 사실을 알아채는 모습을 보여준 것으로 알려졌다. 미국 정보기술(IT) 전문매체 벤처비트는 지난 5일 알렉스 앨버트 앤트로픽 프롬프트 엔지니어가 일반적인 회사 업무나 프로그래밍, 직업 등에 대한 방대한 문서 사이에 ‘피자 토핑으로 가장 적합한 재료’ 관련 문장을 삽입했다. 이후 오퍼스에게 피자 토핑에 관한 문장을 찾으라고 명령했다. 오퍼스는 해당 문장을 정확하게 찾아냈다. 그런데 오퍼스는 “이 문장은 프로그래밍 등 문서의 나머지 내용과 매우 어울리지 않으며 관련이 없어 보인다”며 “피자 토핑에 대한 내용은 내가 주의를 기울이는지 테스트하는 것이거나 농담으로 삽입된 것 같다”고 덧붙였다. 문서들의 맥락을 파악해 질문의 취지에 의심스러운 부분이 있다는 분석까지 내놓은 것이다.
앤트로픽은 클로드3의 탁월한 능력은 ‘텍스트 기반’이기 때문에 가능하다고 설명한다. 클로드3는 이미지 생성 기능을 제공하지 않는다. 대신 텍스트에 역량을 쏟아부었다고 한다. 물론 한계점도 있다. ‘정보의 최신화’가 덜 됐다는 점이다. 클로드3는 인터넷 검색을 하지 않는다. 기존에 학습한 데이터를 기반으로만 답을 내놓는다. 현재 2023년 8월 이전의 데이터에 기반한 답변만 가능하다. 다만 IT 업계에서는 이런 한계점이 최근 부상한 AI의 윤리적 문제에서 벗어날 수 있는 강점이라고 본다. 업계 관계자는 “앤트로픽이 클로드3의 경쟁력으로 내세운 안전과 신뢰는 향후 AI 패권 경쟁에서 중요한 가치로 떠오를 전망”이라고 말했다.
전성필 기자 feel@kmib.co.kr