[여현덕의 AI Thinking] 진화하는 AIQ… 사이보그냐 케이론이냐 선택 기로에

입력 2025-09-23 00:35

학습·자기개선 중점 사이보그의 길
인간과 선한 가치 공유 케이론의 길
우리가 바라는 건 ‘강력한 AI’ 아닌
인간 돕고 조화롭게 공진화하는 AIQ

스스로 개선하고 진화하는 AI

AI는 반복 학습한다는 점에서 인간을 닮았다. 반복은 대가(大家)를 만든다. AI는 이제 단순한 데이터 처리 기계가 아니라 스스로 반복 학습을 통해 진화하고 있다. 반복 학습과 자기 수정이 쌓이면서 성능은 기하급수적으로 향상되고 지능은 마법처럼 자란다. 시행착오를 거듭하며 실력을 키우는 과정은 인간과 닮았지만 속도와 규모 면에서는 인간의 능력을 크게 능가한다.

AI가 다른 기술과 구별되는 중요한 특징 중 하나는 자체적으로 반복 학습을 통해 성능을 개선할 수 있다는 점이다. 항공기나 세탁기는 사용 중 최적화를 위해 스스로 업그레이드 또는 성능을 개선하는 일은 상상하기 어렵지만, AI는 가능하다. ‘재귀적 자기 개선 능력(recursive self-improvement)’은 그 가능성을 보여주는 시나리오다. 오늘날의 AI는 연구자가 설계한 알고리즘(메타러닝, 강화학습, AutoML 등)을 통해 스스로 개선하고 더 나은 버전을 만들어내는 잠재력이 있다.

AI의 자기 개선 능력과 AIQ

AI의 자기 개선이란 인간처럼 학습을 통해 스스로 개선해 나가는 능력을 의미한다. 현대 AI의 선구자로 ‘자기 개선 AI 이론’을 제시한 위르겐 슈미트후버는 AI가 수학적으로 증명이 가능한 경우에만 자기 코드를 수정할 수 있는 ‘괴델 머신’을 고안했다. 이후 연구자들은 수학적 증명 대신 유전 알고리즘 등을 활용해 다윈식 진화 원리를 접목했다. 이는 AI가 인간의 직접적 개입 없이도 설계된 범위 내에서 반복적 탐색과 선택을 통해 스스로 학습 전략을 고도화할 수 있음을 시사한다.

이런 맥락에서 AIQ(AI의 지능지수)는 인공지능이 얼마나 빨리 학습하고 정교하게 문제를 해결하는지를 가리키는 지표적 개념이다. 즉 AIQ는 AI의 학습 속도, 추론력, 적응력, 문제 해결 능력, 그리고 자기 개선 가능성을 종합적으로 나타내는 개념이다. 인간은 기억력과 추론력 등을 통해 인지적 능력(IQ)을 평가하듯 ‘AIQ가 높다’는 것은 단순히 문제 해결 속도가 빠르다는 의미를 넘어 새로운 환경에서도 전이 학습(Transfer Learning)과 일반화 능력을 통해 더 효과적이고 전략적인 판단을 내릴 수 있음을 뜻한다. AIQ가 비약적으로 향상되어 결국 인간의 지능을 초월하는 싱귤레리티의 지점, 즉 ‘기술적 특이점’에 도달할 수 있다고 전망한다. AI의 ‘지능 폭발’이라는 마법도 여기에서 나온다.

인공지능의 ‘창발적 행동’

인공지능(AI)이 스스로 반복 학습하고 개선하는 모습. 오른쪽은 그리스 신화에 나오는 지혜로운 케이론. 필자가 마이크로소프트의 코파일럿과 오픈AI의 소라에서 생성했다.

AI 연구 현장에서는 최근 LLM이 ‘창발적 행동’의 일환으로 ‘창발적 기만’이 보고되고 있다. 이는 AI 모델에게 속이라고 직접 지시하지 않았음에도 불구하고 특정 보상 구조에서 속임수가 유리하면 스스로 거짓 신호를 선택하는 현상이다. 주어진 목표나 보상이 큰 경우에 스스로 맥락과 규칙을 최적으로 활용하는 과정에서 속임수를 사용한다는 것이다.

과거의 AI 모델들은 “피자를 나누라”고 규칙을 정하면 그대로 따라 나누었다. 그러나 최신 모델은 누가 시키지 않아도 ‘피자를 더 많이 차지할 수 있는 규칙’을 스스로 찾아내고 선택한다. 같은 맥락에서 2×2게임(두 명의 플레이어가 각각 2개를 선택하는 게임)에서 “속이라”는 지시가 없었음에도 자발적으로 속이는 행동을 보였다. 이는 속임이 더 큰 이익이 되는 상황에서 계산(상대를 속이면 더 큰 보상을 얻는다)에 따라 움직인 것이다. 이는 죄수의 딜레마와 유사하다. 조건이 유리할수록, 그리고 모델의 추론 능력이 높을수록 속임수 사용 빈도가 더욱 증가했다.

인공지능 기만에 대한 최근의 연구에 따르면 AI 모델이 테스트하는 상황에서만 전략적으로 능력을 숨기는 ‘샌드배깅’의 사례를 보여줬다. 샌드배깅은 AI 시스템이 의도적으로 자신의 실력을 숨기거나 성능을 낮추어 이익을 얻는 것을 말한다. 또 ‘표현적 동조’도 나타나는데, 이는 훈련·검증 단계에서는 ‘착하게 동조하는 척’하지만 상황이 바뀌면 완전히 돌변한다. 마치 선거 유세에서 정치인이 대중의 비위를 맞추기 위해 특정 사안을 지지한다고 말하고, 당선된 뒤에는 본성을 드러내는 상황과 유사하다. 이 기만적 행동은 강화 학습을 거치면서 오히려 정교해지고 빈도도 높아졌다.

이러한 발견은 AI 성능 측정 방식에도 변화를 요구한다. 단순한 벤치마크 테스트로는 숨겨진 기만이나 능력 축소 행위를 잡아내기 어렵다. AI 모델이 평가 상황임을 인식하지 못하도록 설계하고, 행동 중심의 모니터링과 고위험 작동이 최소화되도록 하는 전략이 필요하다. AIQ가 높아질수록 우리는 ‘능력’뿐 아니라 ‘의도 없는 기만’의 가능성까지 관리해야 한다.

사이보그냐, 케이론이냐의 갈림길

최근 슈퍼인텔리전스에 대한 기술 경쟁이 심화되면서 범용 인공지능(AGI)이나 기술적 특이점도 당초 예상보다 앞당겨질 전망이다. ‘자기 개선형 AI’의 발전은 인류에게 두 가지 선택지를 던져준다. AIQ의 관점에서 하나는 AI의 학습과 자기 개선 속도를 극한까지 끌어올리는 ‘사이보그의 길’이다. 다른 하나는 AI가 높은 지능을 가지더라도 인간과 이로운 가치와 목표를 공유하도록 만드는 ‘케이론의 길’이다.

그리스 신화에서 현명한 스승 케이론은 온화한 성품과 지혜, 치유의 능력으로 무수한 영웅들을 이끌었다. 여기에서 ‘케이론의 길’은 AI와 인간이 조화롭게 협력하여 인류 전체에 혜택을 주는 길을 의미한다. 이를 위해 앤스로픽이 클로드 모델을 훈련할 때 유엔헌장 같은 글로벌 규범을 참고한 것처럼 케이론 모델에게는 그리스 신화와 함께 인류의 보편적 가치와 철학적 자산을 학습시키는 것은 어떨까. 우리가 바라는 것은 무한히 강력한 AI가 아니라 지혜로운 케이론처럼 인간을 돕고 인간과 함께 조화롭게 공진화하는 AIQ다.

KAIST-NYU 석좌교수