
AI가 학생들의 학습 방식과 교사의 가르침을 재구성하는 이 순간, Khan Academy의 최고학습책임자(CLO)인 크리스틴 디세르보 박사만큼 영향력 있는 목소리는 드뭅니다. 최근 ETS는 디세르보와 만나 근거 기반 학습 설계, 신기술, 교육 형평성에 대한 헌신이 어떻게 결합되어 맞춤형 교육의 미래를 형성하고 있는지 탐구했습니다.
이 대화에서 디세르보는 교육 분야에서 의미 있는 혁신이 진정으로 필요한 것이 무엇인지 드물게 비하인드 신을 들여다봅니다. 그녀는 효과가 있는 점, 아직 해결해야 할 점, 그리고 교육자들이 이 변화하는 환경을 낙관과 명확함으로 어떻게 헤쳐 나갈 수 있는지에 대해 깊이 탐구합니다.
칸 아카데미의 최고 학습 책임자로서 AI를 학습 경험에 통합하는 데 앞장서셨습니다. 전통적인 평가를 넘어 행동 신호를 활용해 기술을 측정하는 데 가장 흥미를 느끼는 점은 무엇인가요?
디세르보: 사실 AI가 우리에게 제공하는 것은 행동 신호라기보다는 새로운 활동일 수 있다고 생각합니다. 우리는 10년 넘게 시뮬레이션과 게임에서 나온 증거를 바탕으로 행동 신호를 평가에 활용하는 연구를 해왔습니다. 생성형 AI와 평가에서 가장 흥미로운 점은 새로운 종류의 상호작용을 가능하게 한다는 것입니다. 예를 들어, 학생들은 실제 대화를 모방하는 AI와 대화를 나눌 수 있습니다. 또한 이전에는 불가능했던 시각적 결과를 생성할 수도 있습니다.
왜 지금이 협업과 끈기 같은 역량을 측정하는 방식을 재고할 적기라고 생각하시나요?
디세르보: 새로운 대화형 상호작용 유형을 갖는 능력은 협업과 소통 같은 구조를 평가하는 더 진정성 있는 방법을 열어줍니다. 예를 들어, 설득을 평가하고 싶다면, 개인이 AI와 대화를 통해 입장을 설득할 수 있었습니다. 생성형 AI 이전에는 평가 중 대화가 불가능했습니다. 2015년 PISA 협력적 문제 해결 평가를 보십시오. 협력적 문제 해결 대화를 시뮬레이션하기 위해 시험 제작자들은 객관식 선택법을 사용해 응시자가 다음에 어떤 선택지를 "말할지"를 선택해야 했습니다. 이로 인해 응시자들의 가능한 해결 공간이 크게 제한되었고, 실제 문제 해결 대화 경험이 훨씬 덜 느껴졌습니다. 이제 생성형 AI를 통해 학생들이 인간과 대화하듯 대화에 참여하며 자신의 능력을 보여주는 가능성이 생겼습니다. 물론, 이는 학생들의 입력에 AI가 반응하도록 유도하는 등 상당한 노력이 필요합니다.
특히 지속성에 관해서는, 저는 위의 구조들과는 다르게 봅니다. 지속성은 본질적으로 실패 앞에서도 누군가가 계속 노력하는지 관찰하는 것입니다. 우리는 적어도 지난 10년 간 디지털 환경에서 이를 관찰할 수 있었습니다(제가 2016년에 여기서 다룬 바와 같이).
음성이나 제스처 같은 다중 모달 데이터를 평가에 통합할 기회가 있나요? 그와 관련해 어떤 도전이나 윤리적 고려사항이 있나요?
디세르보: 칸 아카데미의 AI 기반 튜터이자 교사 보조 기능인 칸미고를 출시하면서 텍스트 음성 변환 및 음성 변환 기능은 특히 읽기와 타이핑 부담을 줄이는 방법으로 좋은 반응을 얻었습니다. 평가로 넘어가면서 음성 또는 제스처를 포함하는 데 있어 점수 편향을 피하는 것이 도전이 될 것입니다.
AI와 행동 데이터를 활용해 기술 측정에 가장 큰 가능성을 보는 곳은 어디이며, 교육자들이 염두에 두어야 할 한계는 무엇인가요?
디세르보: 지난 1년간 약 8,000명의 학생들과 함께 "당신의 생각을 설명하기"라는 기능을 시범 운영하게 되어 매우 기쁩니다. 학생들은 전통적인 수학 질문에 참여한 후, 생성형 AI와 대화를 통해 자신의 답변 배경을 설명하도록 요청받습니다. 이 활동은 교사들이 학생 옆에 앉아 과제에 대해 묻는 모습을 모방하기 위한 것입니다. ETS에서 수행한 이전 연구와 마찬가지로, 우리는 학생들이 단순히 답변을 입력하는 것보다 이러한 상황에서 자신의 이해도를 더 많이 드러낸다는 것을 발견했습니다. 이는 교사와 다른 이해관계자들이 학생들이 무엇을 알고 무엇을 할 수 있는지에 대해 더 많은 통찰을 얻는다는 것을 의미합니다.
이러한 혁신적인 접근법에서 얻는 깊은 통찰과 교실에서의 확장성 및 실용성 필요성 사이에서 어떻게 균형을 맞추나요?
디세르보: 평가의 많은 것들처럼, 혁신은 측정 오차 증가에 대한 결과가 적은 형성 단계에서 시작하는 것이 가장 좋습니다. 학생이 이미 숙달한 것을 평가에서 숙달하지 못했다고 나타났기 때문에 연습하는 데 시간을 쓴다고 해도, 그것은 치명적인 오류가 아닙니다. 생성형 AI를 활용한 교실 평가는 교수들이 비교적 쉽게 만들 수 있는데, 이 교수는 자신의 수업을 위해 구술 시험을 만들었던 것처 럼요.
앞으로, AI가 진정성 있고 문화적으로 반응하는 평가를 만드는 데 어떤 역할을 한다고 보시나요?
디세르보: 생성형 AI 기반 평가로 가능할 수 있는 개인화가 더 타당하고 신뢰할 수 있는 평가를 제공하는지에 대한 연구가 더 필요합니다. 구성 개념과 무관한 배경 지식의 포함이 일부 응시자에게 타당도를 낮출 수 있다는 점은 분명합니다. 생성형 AI를 활용해 평가 문항과 활동을 개별 학생의 경험, 언어, 문화적 이해를 고려하도록 조정할 수 있을 가능성도 있습니다. 하지만 평가 대상 개념의 표준 정의를 유지하면서 이를 수행하는 것은 쉬운 일이 아닙니다.
앞으로 몇 년간 행동을 통해 실제 기술을 측정하는 연구나 혁신에 가장 기대되는 것은 무엇인가요?
디세르보: 저는 혁신을 몇 가지 범주에 나눠 둡니다. 제가 기대하는 점은 이렇습니다.
- 평가에 최적화되지 않은 기술:
- 에이전트 AI - 전문 에이전트가 평가 과정의 여러 부분을 분리하여 수행할 수 있도록 합니다
- 큰 맥락 창 - AI에 방대한 정보를 제공하는 것은 복잡한 평가 기준으로 맥락이 풍부한 피드백과 채점에 도움이 됩니다
- 향후 12개월 내에 이용 가능한 기술:
- 저렴한 텍스트, 오디오, 비디오 스트리밍 - 시험 응시자와 AI 모두 다양한 방식으로 상호작용할 수 있게 해줍니다. 살과 그의 아들이 만든 이 데모 가 있습니다
- 설명 가능한 AI - AI 추론이 채점과 같은 응용 분야를 더 잘 지원한다는 점의 이해 - "블랙박스" 점수가 학습자에게 피드백을 제공하는 데 도움이 되지 않는 경우에 도움이 된다는 점
- 개인정보 보호 대상 온디바이스 모델 - 데이터 공유 및 개인정보 보호 관련 우려를 해결할 것입니다
- 향후 1-3년 내에 이용 가능한 기술:
- 다중 에이전트 시뮬레이션 - 시험 응시자는 평가에서 서로 다른 역할을 하는 여러 AI와 상호작용하여 실제 집단 시나리오를 시뮬레이션합니다