누구나 테스트를 만들 수 있습니다, 특히 요즘 AI가 할 수 있는 모든 일들 덕분에요. 더 어려운 질문은 그 테스트가 주장하는 바를 측정하는지, 인구 집단 전반에 걸쳐 유효한지, 그리고 대규모에서 공정하고 유효한지 여부입니다.
ETS는 매년 수백만 건의 검사를 개발, 시행, 채점하며, 대부분 검사를 받는 사람들에게 실질적인 결과를 초래합니다. 단 하나의 결과가 학습자의 미래, 경력 기회, 또는 라이선스 결과를 결정할 수 있습니다. 이러한 기회를 사람들에게 제공하는 것이 우리의 사명을 이끄는 원동력이며, 우리가 스스로에게 높은 기준을 요구하는 이유입니다. AI가 등장하면 기준은 낮아지지 않고 더 높아집니다. 우리는 AI가 가치를 더하는 부분에 대해 규율 있는 선택을 하고, AI가 아닌 인간이 주도권을 유지하도록 함으로써 이를 해결합니다.
ETS가 평가 수명주기 전반에 걸쳐 AI를 어떻게 활용하는가
ETS에서는 AI가 평가 수명주기의 여러 단계를 지원합니다: 콘텐츠 개발, 테스트 조립 및 전달, 채점.
콘텐츠 개발
저희는 독자적인 AI 콘텐츠 엔진을 사용해 대부분의 주요 프로그램에서 문항과 관련 콘텐츠의 초안을 생성합니다. AI 가드레일, 제약 조건, 요구사항을 설정하고, 수십 년간의 평가 개발 경험을 바탕으로 초기 생성을 적절히 안내합니다. 현재 평가 콘텐츠의 약 80%에 달하는데, 질문과 읽기 지문을 포함해, 이렇게 시작하세요.
하지만 콘텐츠 생성은 시작점에 불과합니다. 어떤 프로그램에서든 문항이 사용되기 전에, 공정성과 접근성을 보장하는 동시에 기대치와 의도된 평가 기준에 부합하는지 확인하는 구조화된 검토 과정을 거칩니다. 간단히 말해, 우리는 AI 산출물을 완성된 작업물로 취급하지 않습니다. 우리는 그것을 사용되기 위해 노력해야 하는 후보로 취급합니다.
조립 및 납품
우리는 AI를 활용해 실시간으로 테스트를 조정하여 개인화하는 데 도움을 줍니다. 적응형 시험 환경에서는 응시자가 이전 질문에 어떻게 반응했는지에 따라 질문이나 과제를 선택할 수 있어, 평가가 올바른 증거를 더 효율적으로 수집하는 데 도움을 줍니다. 이러한 평가는 시험 시간을 더 짧고 효율적으로 만들 수 있습니다. 응시자들의 '좌석 시간'을 줄이고, 그들의 수준에 더 맞게 콘텐츠를 맞춤화하는 것입니다.
이것은 단순히 응시자들이 자신의 실력을 보여주는 더 나은 방법이 아닙니다. 또한 중요한 보안 조치이기도 합니다: 사람들이 동일한 양식을 받지 않아 다른 콘텐츠 세트를 받을 수 있습니다.
점수 계산
ETS는 대형 언어 모델(LLM)이 등장하기 훨씬 이전인 2000년대 초반부터 AI를 채점에 활용해 왔습니다. 진짜 문제는 AI가 응답을 받을 수 있느냐가 아니라, 신뢰성 있고 공정하며 자신이 제공하는 프로그램의 기준에 맞게 응답할 수 있느냐입니다.
그래서 일부 ETS 평가는 전적으로 인간에 의해 채점되고, 어떤 평가는 AI만 사용하며, 또 어떤 평가는 응답 유형에 따라 AI와 인간 채점의 조합을 사용합니다. 적절한 평가 모델은 프로그램, 점수의 중요성, 평가되는 응답 유형, 그리고 그 응답이 제공하는 시장의 기대에 따라 달라집니다. 이 모든 것은 각 학습자에게 가장 정확하고 공정하며 방어 가능한 결과를 내기 위한 목적입니다.
이해관계자들에게 '신뢰'가 의미하는 바
AI 기반 평가에 대한 신뢰는 단일한 특성이 아닙니다. 시스템이 일관되게 유효하고 공정하며 신뢰할 수 있는 결과를 내는지, 그리고 그 결과에 의존하는 사람들이 그렇게 믿는지가 중요합니다.
핵심 ETS 이해관계자들은 AI와 관련된 신뢰를 다르게 이해합니다. 시험 응시자들은 신뢰를 공정성과 투명성의 결과로 보는 경우가 많으며, 기관 파트너는 규율 있는 수명 주기 통제와 인간 참여 증거를 요구할 수 있습니다. 파트너들은 프로그램이 성장함에 따라 AI가 비교성, 신뢰성 또는 공정성을 약화시키지 않도록 지속적인 모니터링에 관심이 있습니다. 정책 입안자들은 인구 집단 전반에 걸쳐 위험이 어떻게 식별, 측정 및 관리되는지에 대한 명확한 설명이 필요합니다.
ETS의 목표는 모든 곳에서 AI를 사용하는 것이 아닙니다. 수십 년간 쌓아온 기준을 지키면서 학습자와 기관을 위해 더 많은 일을 할 수 있도록 돕는 데 활용하는 것입니다. 즉, 작업에 맞는 올바른 방법을 사용하고, 사람이 책임을 지도록 하며, 새로운 능력을 신뢰하기 전에 증거를 철저히 평가해야 합니다. 이것이 바로 우리가 AI를 유용하고 책임감 있게 만드는 방법이며, 채점자와 교육자들이 우리와 제품에 심어준 신뢰를 유지하는 방법입니다.