[이도경의 에듀 서치] 교사 못 믿는다면 AI는 믿을 수 있나?

입력 2023-11-29 04:05
게티이미지

컴퓨터 활용 서·논술형 채점 방안
한국교육과정평가원이 타당성 살펴

AI 의견은 “교사 완전 대체 어렵다”

교육 현장 AI 본격 활용 전 우리 자세
‘교사니까 믿을 수 있다’는 환경 조성
포기하는 일도 미루는 일도 없어야

어느 고교의 학부모 상담시간, 담임교사가 학생의 내신 성적을 설명하고 있다. “이번 학기에 국어가 3등급으로 떨어졌는데 논술에서 점수가 많이 깎였어요.” 교사는 중간·기말고사 답안지와 채점지를 테이블에 늘어놓으며 말을 이어간다. “인공지능(AI)은 ○○이가 쓴 답글에서 논리가 부족하다고 짚었어요. 여기 논리 구성력 점수 보이시죠? 어휘력과 문장력에서도 높은 점수를 받지 못했어요.” 학부모는 AI의 채점 결과를 훑어보고는 학교가 쓰는 AI 채점 프로그램에 관해 묻는다. 교사는 교육청 지침에 따라 정부 공인 AI를 3개 돌려 내신 산출에 활용한다고 설명한다. 담당 과목 교사들이 매 학기 채점 결과를 점검하지만, 문제가 발견되지 않았다고 말한다. 학부모는 더는 항의하지 못하고 AI가 자녀에게 권유한 학습법을 출력해 들고 발길을 돌린다.

AI가 학교 평가에 들어온 미래를 한번 그려봤습니다. 아주 먼 미래의 일로 생각되나요? 그렇지 않습니다. 한국교육과정평가원이 움직이고 있습니다. 대학수학능력시험을 주관하는, 시험에 관해서는 국내 최고의 권위를 가진 기관입니다.

평가원이 지난 23일 개최한 ‘2023년 연구 성과 발표회’에서 눈길을 끄는 발표가 있었습니다. ‘컴퓨터 기반 서·논술형 평가를 위한 자동 채점 방안 설계’라는 연구입니다. AI 기술을 실제 학생들의 서·논술형 시험 채점에 활용해보고 AI 채점의 타당성을 들여다보는 시도를 해봤답니다.

연구팀은 AI가 학생의 국어 글쓰기 능력을 측정할 수 있도록 글의 길이, 어휘 수, 형태소(뜻을 가진 가장 작은 말의 단위) 등 글의 구성 요소들을 분석하는 훈련을 하도록 했습니다. 그리고는 고교 2학년이 실제 작성한 글 490편을 A~C등급으로 채점해보도록 했습니다. AI 채점 정확도는 61%로 측정됐습니다. AI가 학생의 글을 제대로 평가했는지 국어 교사들의 실제 평가와 대조해보니 61% 정도 믿을 수 있었다는 겁니다.

등급별로 성능 차이가 나타났습니다. A등급은 67%, C등급 73%였는데 B등급은 44%로 현저히 낮았습니다. 연구팀은 이 데이터를 AI가 아주 잘 쓴 글과 아주 못 쓴 글은 비교적 잘 판별했지만, 글이 어중간하면 애를 먹는다고 추정했습니다. 예를 들어 길고 다양한 어휘를 사용하고 외견상 글을 잘 쓴듯해도 주제에서 일부 벗어나거나 통일성, 참신성이 부족할 경우 A를 줘야 할지 B를 줘야 할지 헷갈렸다는 얘기입니다. 수학 서술형 평가에선 정확도가 73~79% 수준으로 국어보다는 높게 나타났습니다. 아직은 AI에게 채점을 맡길 수준은 아니지만, AI의 발전 속도를 고려하면 가능성은 충분히 엿볼 수 있는 결과로 보입니다.

교육부의 움직임도 심상치 않습니다. 교육부는 중학교 2학년부터 적용하는 2028학년도 수능에서 서·논술형 문항을 도입하려 했습니다. 하지만 학교 현장에 끼칠 파장과 사교육 증가 우려 때문에 포기했습니다. 수능에서 어렵다는 판단이 들자 일단 고교 내신에서 적용하기로 했습니다. 이런 방침을 지난달 발표한 2028학년도 대입 개편 시안에 담아 공식화했습니다. 고교 내신 5등급제 도입과 수능 선택과목을 없애는 굵직한 변화에 가려 크게 주목받지 못했지만, 학교 현장에선 갑론을박이 이어지고 있습니다.

교육부는 고교에서 서·논술형 평가만으로 내신을 산출할 수 있도록 학교생활기록 및 관리지침을 개정하기로 했습니다. 학교와 교사 판단에 따라 5지 선다형이나 단답형 말고 서·논술형 시험으로 내신 등급을 산출하는 근거를 마련하는 겁니다. 교육부는 “세계 주요국 대부분은 내신에서 주제 글쓰기, 보고서 평가 등 서·논술형 평가를 지향한다. 지식 암기 위주 5지 선다형 출제는 지양하고 사고력과 문제 해결력을 평가해야 한다”고 강조했습니다. 중국의 수능인 가오카오를 예로 들며 ‘영어·수학 등 다양한 과목에서 800자 이상 논술형 평가 실시하고, 지역 교육평가원 및 지정 대학에서 채점한다’고 덧붙였습니다. ‘중국도 하는데 우리가 못 할 이유가 없다’는 것이죠.

학교 평가의 지향점이 서·논술형인 것은 분명합니다. 5지선다형 평가로는 생각하는 힘을 기르는 데 한계가 뚜렷하니까요. 교육계에선 꽤 오래전부터 서·논술형 평가 도입을 바랐지만, 학교 현장의 빈약한 신뢰 관계가 언제나 발목을 잡았습니다. 학부모는 “교사를 어떻게 믿느냐”, 교사는 “학생·학부모 항의를 감당하기 어렵다”고 맞섰습니다. 간극이 좁혀질 기미는 없었습니다.

정부와 교육계는 AI에서 돌파구를 본 듯합니다. AI의 권위에 기대보겠다는 심산으로 읽힙니다. 하지만 챗GPT 의견은 다릅니다. ‘AI는 서·논술형 채점을 할 수 있는가’라고 묻자 “완전한 대체는 어렵고 창의성, 논리적 추론 등 인간의 주관적 판단이 필요한 측면에선 한계가 있다”고 했습니다. ‘미래에 AI 기술이 고도화된다면?’이라 묻자 “미래에는 (AI가) 높은 수준의 문맥 이해와 추론 능력을 갖출 것이지만 여전히 주관적이고 창의성이 필요한 부분에서 인간의 역할이 중요하다”고 했습니다.

‘교사와 AI가 협력한다면?’이라 묻자 “AI는 데이터 기반으로 일관된 판단과 효율성을 제공하고, 교사는 창의성, 주관적 판단, 학생 개별 상황을 고려할 수 있다. 서로의 강점을 결합하면 공정성과 타당성을 높일 수 있다”는 대답이 돌아왔습니다. AI가 정답을 말한 듯하죠? ‘교사를 어떻게 믿어’가 아닌 ‘교사니까 믿을 수 있어’라는 신뢰 환경 조성을 건너뛸 수는 없습니다. 시간이 걸리더라도 신뢰를 쌓아가는 과정을 포기하지 않았으면 합니다. 교사 없는 AI 평가는 결국 반쪽짜리에 불과할 것입니다.


이도경 교육전문기자 yido@kmib.co.kr