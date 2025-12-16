서강대 교수팀, 국내외 AI모델 성능 비교



해외 모델은 76~92점 고득점

“수능만으로 성능 평가는 무리”

생성형 AI 로 만들어진 이미지 입니다.

국가대표 인공지능(AI)을 표방하는 국내 대형언어모델(LLM)들을 상대로 대학수학능력시험 수학·논술 문제를 풀게 했더니 낙제점을 받았다는 연구 결과가 발표됐다. 해외 모델은 76~92점을 기록했지만, 국내 모델은 대체로 20점대 이하의 낮은 점수에 그쳤다는 것이다. 업계에선 “수능 문제로 전체 모델 성능을 평가하는 것은 무리”라며 새로운 모델에서는 더 나은 성능을 낼 수 있다는 입장을 보였다.



김종락 서강대 수학과 교수 연구팀은 국내 5개 모델과 해외 5개 모델에 수능 수학과 해외 입시에 쓰인 수학 문제 50개를 풀게 한 결과 해외가 국내 모델보다 높은 점수를 받았다고 15일 밝혔다. 연구팀은 수능 문제로 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 구성했다. 논술 문제는 국내 10개 대학 기출문제와 인도·일본 입시 각 10문제씩 30문제를 추려 AI 모델에 풀게 했다.



최고점 모델은 구글의 ‘제미나이 3 프로 프리뷰’로 92점을 받았다. 앤트로픽의 ‘클로드 오푸스 4.5’는 84점, xAI의 ‘그록 4.1 패스트’는 82점, 오픈AI의 ‘GPT 5.1’은 80점, 딥시크의 ‘딥시크 V3.2’는 76점을 기록했다.



이에 비해 한국 모델의 경우 업스테이지의 ‘솔라 프로2’가 58점으로 가장 높았고 LG AI 연구원의 ‘엑사원 4.0.1’과 SK텔레콤 ‘에이닷 엑스(A.X 4.0)’, 네이버 ‘하이퍼클로바X(HCX-007)’는 20점대에 그쳤다. 엔씨소프트의 ‘라마 바르코(8B 인스트럭트)’는 2점으로 가장 낮은 점수를 받았다.



김 교수는 “국내 모델이 해외 모델에 비해 추론 능력이 부족하다는 점을 확인했다”며 “국내 기업들이 ‘국가대표 AI’ 경쟁을 위해 최신 모델을 개발하고 있는 만큼 새 모델이 나오면 다시 한번 테스트해보려고 한다”고 말했다.



국내 업계에서는 수능 문제를 잘 푸는 것과 모델 성능이 바로 연결되는 것은 아닌 만큼 확대 해석은 경계해야 한다는 반응을 보였다. 한 업계 관계자는 “이미 공개된 모델은 벌써 꽤 지난 버전인 만큼 새로 업데이트한 모델은 다른 결과가 나올 수 있다”며 “추론 모드가 활성화돼있지 않은 경우에도 낮은 점수가 나올 수 있다”고 말했다.



LG AI연구원은 연구팀이 분석한 수능 수학 킬러 문항 20문제를 자체 테스트한 결과 평균 88.75점이 나왔다고 반박했다. 연구원 측은 “연구팀이 모델의 특성을 고려하지 않고 성능을 측정했기 때문에 점수가 낮게 나온 것”이라고 말했다.



심희정 기자 simcity@kmib.co.kr



GoodNews paper ⓒ 국가대표 인공지능(AI)을 표방하는 국내 대형언어모델(LLM)들을 상대로 대학수학능력시험 수학·논술 문제를 풀게 했더니 낙제점을 받았다는 연구 결과가 발표됐다. 해외 모델은 76~92점을 기록했지만, 국내 모델은 대체로 20점대 이하의 낮은 점수에 그쳤다는 것이다. 업계에선 “수능 문제로 전체 모델 성능을 평가하는 것은 무리”라며 새로운 모델에서는 더 나은 성능을 낼 수 있다는 입장을 보였다.김종락 서강대 수학과 교수 연구팀은 국내 5개 모델과 해외 5개 모델에 수능 수학과 해외 입시에 쓰인 수학 문제 50개를 풀게 한 결과 해외가 국내 모델보다 높은 점수를 받았다고 15일 밝혔다. 연구팀은 수능 문제로 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 구성했다. 논술 문제는 국내 10개 대학 기출문제와 인도·일본 입시 각 10문제씩 30문제를 추려 AI 모델에 풀게 했다.최고점 모델은 구글의 ‘제미나이 3 프로 프리뷰’로 92점을 받았다. 앤트로픽의 ‘클로드 오푸스 4.5’는 84점, xAI의 ‘그록 4.1 패스트’는 82점, 오픈AI의 ‘GPT 5.1’은 80점, 딥시크의 ‘딥시크 V3.2’는 76점을 기록했다.이에 비해 한국 모델의 경우 업스테이지의 ‘솔라 프로2’가 58점으로 가장 높았고 LG AI 연구원의 ‘엑사원 4.0.1’과 SK텔레콤 ‘에이닷 엑스(A.X 4.0)’, 네이버 ‘하이퍼클로바X(HCX-007)’는 20점대에 그쳤다. 엔씨소프트의 ‘라마 바르코(8B 인스트럭트)’는 2점으로 가장 낮은 점수를 받았다.김 교수는 “국내 모델이 해외 모델에 비해 추론 능력이 부족하다는 점을 확인했다”며 “국내 기업들이 ‘국가대표 AI’ 경쟁을 위해 최신 모델을 개발하고 있는 만큼 새 모델이 나오면 다시 한번 테스트해보려고 한다”고 말했다.국내 업계에서는 수능 문제를 잘 푸는 것과 모델 성능이 바로 연결되는 것은 아닌 만큼 확대 해석은 경계해야 한다는 반응을 보였다. 한 업계 관계자는 “이미 공개된 모델은 벌써 꽤 지난 버전인 만큼 새로 업데이트한 모델은 다른 결과가 나올 수 있다”며 “추론 모드가 활성화돼있지 않은 경우에도 낮은 점수가 나올 수 있다”고 말했다.LG AI연구원은 연구팀이 분석한 수능 수학 킬러 문항 20문제를 자체 테스트한 결과 평균 88.75점이 나왔다고 반박했다. 연구원 측은 “연구팀이 모델의 특성을 고려하지 않고 성능을 측정했기 때문에 점수가 낮게 나온 것”이라고 말했다.심희정 기자 simcity@kmib.co.krGoodNews paper ⓒ 국민일보(www.kmib.co.kr) , 무단전재, 수집, 재배포 및 AI학습 이용 금지