AI 지원 글쓰기: 자동 채점에 대한 시사점

생성형 AI의 급속한 발전은 사람들의 글쓰기 방식을 변화시켰습니다. AI는 이제 많은 일상 글쓰기 도구에 내장되어 있어 사용자가 아이디어를 생성하고, 콘텐츠를 초안으로 작성하며, 문장을 수정하고, 글을 개선하는 데 도움을 줍니다. 그 결과, 글쓰기는 점점 인간과 AI 간의 협력적 과정이 되고 있습니다. 학생, 교육자, 시험 기관 모두에게 근본적인 질문이 제기됩니다: AI가 글쓰기 과정의 일부가 될 때, 우리는 어떤 필수적인 글쓰기 기술을 중요하게 여기며, 어떻게 측정해야 할까요?

이러한 변화는 또한 에세이가 독립적으로 작성된다는 가정 하에 개발된 기존의 자동 채점 시스템에도 도전을 줍니다. 문법, 용법, 기법, 조직과 같은 특징들은 오랫동안 글쓰기 품질의 지표로 사용되어 왔으며, 많은 자동 채점 모델의 핵심 요소입니다. 하지만 AI가 최소한의 노력으로 이러한 글쓰기 측면을 개선할 수 있다면, 자동화된 채점에서 AI의 역할도 재고할 필요가 있습니다. 이 도전은 AI 사용을 통제하기 어려운 비감독 글쓰기 과제에 가장 관련이 있으며, 이러한 도구에 대한 접근이 제한될 수 있는 공식 감독 작성 시험보다.

최근 논문 "AI 생성 에세이: 자동화 채점과 학업 청렴성에 대한 특징과 함의"는 Educational Measurement: Issues and Practice(EM:IP)에 게재되었으며, GRE 분석적 글쓰기 평가의 관점에서 이 문제를 탐구합니다. 이 연구는 ETS 여름 인턴십 프로젝트에서 발전했으며, AI가 생성한 에세이와 인간이 작성한 에세이를 비교하고, 훈련된 인간 평가자와 ETS의 자동 채점 엔진 전자 평가자를 모두 사용해 평가했습니다. 이 연구 결과는 AI가 생성한 에세이와 인간이 작성한 에세이 간의 중요한 차이점을 드러내며, 차세대 자동 채점 시스템에 유용한 통찰을 제공합니다.

자동 점수 산정이 새로운 도전에 직면하다

자동 채점은 대규모 글쓰기 평가에서 중요한 역할을 합니다. 이러한 시스템은 문법, 사용법, 기법, 스타일, 조직, 단어 선택과 같은 언어적 특징에 의존하는 경우가 많은데, 이는 NLP 기법으로 효율적으로 계산할 수 있기 때문입니다. 이러한 특징들은 많은 언어 시험에서 개념의 일부이지만, 논증과 추론에 더 중점을 둔 과제에서는 아이디어, 증거, 추론의 질을 직접 입증하기보다는 더 깊은 글쓰기 질을 간접적으로 나타내는 지표로 작용하는 경우가 많습니다.

예를 들어, 정확한 문법, 명확한 조직, 잘 구성된 단락을 가진 학생은 더 강한 추론력과 의사소통 능력을 보여준다.

생성형 AI는 그 관계를 바꿉니다. AI가 생성한 에세이는 세련되고 잘 구조화된 글을 만들어내기 때문에 언어 관련 특징에서 높은 점수를 받을 수 있습니다. 하지만 AI 생성 에세이에서 나오는 강한 언어 특징은 항상 강력한 추론, 의미 있는 분석, 독창적인 사고를 동반하지는 않습니다.

그 결과, 전통적으로 글쓰기 품질의 좋은 지표였던 일부 기능들이 에세이가 생성되거나 AI의 적극적인 지원을 받으면 신뢰도가 떨어지게 됩니다.

연구 결과는

이 연구는 두 가지 중요한 발견을 밝혀냈다.

첫째, AI가 생성한 에세이는 근본적인 아이디어나 논거가 상대적으로 제한적임에도 불구하고 언어 관련 특징에 관한 인간이 쓴 에세이보다 꾸준히 더 좋은 성과를 냈습니다. 둘째, 전자 평가자®는 AI 생성 에세이에 인간 평가자보다 더 높은 점수를 부여했습니다.

이 차이는 전통적으로 자동 점수 시스템이 어떻게 개발되어 왔는지를 반영합니다. E-평가자®는 인간이 작성한 에세이를 사용해 훈련되었으며, 강한 언어 사용은 일반적으로 전체적으로 더 강한 글쓰기와 연관되어 있습니다. 따라서 이러한 요소들은 점수 매기기 과정에서 중요한 역할을 합니다.

AI 생성 에세이는 이러한 언어 관련 특징에서 매우 뛰어난 성과를 낼 수 있지만, 강력한 분석적 추론, 증거 사용, 깊이 있는 논거는 부족합니다. 전자 평가®자가 AI 생성 에세이를 평가할 때 이러한 특징에 동일한 가중치를 부여하면 점수가 부풀려집니다.

반면 인간 평가자는 언어 품질뿐만 아니라 추론의 질, 증거 사용, 그리고 점수 루브릭에 따라 아이디어의 발전 정도도 평가합니다. 이것이 인간 평가자가 AI 생성 에세이를 자동화 시스템만큼 높게 평가하지 못한 이유를 설명해 줍니다.

중요한 점은, 이러한 결과가 전자 평가자®가 결함이 있음을 시사하지 않는다는 점입니다. 오히려 생성형 AI가 기존 자동 점수 시스템에서 만들어진 가정들을 어떻게 바꿔왔는지를 강조합니다.

자동 점수 산정에 다음에 필요한 것은 무엇인가요

자동 점수 시스템은 단순히 점수를 부여하는 것 이상을 합니다. 채점이 시작되기 전에, 보통 그 답변이 채점에 적합한지 확인합니다. 전통적으로 이 단계는 주제에서 벗어나거나, 비정상적으로 짧거나 길거나, 반복적이거나, 암기했거나, 채점에 적합하지 않은 에세이를 표시하는 데 초점을 맞춰왔습니다.

AI 지원 글쓰기가 점점 보편화됨에 따라, 이 초기 심사 과정은 AI 사용이 허용되지 않을 때 AI 생성 또는 AI 지원이 많이 된 답변을 식별하는 데 확대되어야 합니다. 실제로 EM:IP 논문의 결과는 다양한 생성형 AI 모델이 생성한 에세이를 높은 정확도로 탐지할 수 있음을 보여줍니다. 하지만 새로운 AI 모델이 등장함에 따라 탐지 방법은 지속적으로 업데이트되어야 합니다.

동시에, 자동 채점 시스템은 글쓰기의 다양한 측면에 얼마나 중점을 두는지 재고해야 합니다. 표면적인 언어 기능은 AI가 최소한의 노력으로 개선할 수 있을 때, 글의 깊은 추론을 나타내는 지표로는 덜 유용할 수 있습니다.

미래의 시스템은 증거의 효과적인 사용, 추론의 질, 분석의 깊이, 논증의 강도와 같은 글쓰기의 더 깊은 특성에 더 큰 비중을 두어야 합니다.

글쓰기 평가의 미래

AI 보조 글쓰기는 앞으로도 계속 존재할 것입니다. 이 도구들이 일상적인 글쓰기에 자연스럽게 자리 잡으면서, 중심 질문은 더 이상 사용을 감지하거나 방지하는 것이 아니라, 이 새로운 환경에서 글쓰기에서 무엇을 측정해야 할지 어떻게 재정의할 것인가입니다.

이 질문에 답하려면 독립적인 글쓰기 능력 수준, 적절한 AI 지원, 글쓰기 품질 평가에 사용할 증거 등 여러 중요한 문제에 대한 합의가 필요합니다. 자동화된 채점 시스템은 이러한 광범위한 논의와 함께 진화해야 하며, AI 시대에 글쓰기에 대해 유효하고 의미 있는 판단을 계속 지원해야 합니다.

{"teaserCardGridModuleHeader":"통찰력이 진보를 이끈다","teaserCardGridModuleDescription":"교육, 일자리, 인간 잠재력을 앞으로 나아가게 하는 연구, 이야기, 아이디어를 발견해 보세요.","teaserCardGridModuleTheme":"ets-xdark","showSeparator":true,"teaserCards":[{"teaserCardTitle":"ETS에서 AI를 발견하세요","teaserCardDescription":"우리의 AI 비전, 원칙, 해결책에 대해 배우고, 실제 AI 역량을 통해 직원들에게 어떻게 역량을 부여하고 있는지 알아보세요.","teaserCardImage":"/content/dam/ets-org/brands/insights-and-perspectives/ai.png","teaserCardImageAlt":"이미지 1","teaserCardLink":"/ai.html","enableGatedContent":false,"ctas":[]},{"teaserCardTitle":"인간 진전 보고서","teaserCardDescription":"ETS의 사명이 사람과 영향력을 통해 어떻게 실현되는지 확인해 보세요. 이 이야기들은 변화, 기회, 그리고 실제로 이루어진 진보의 이야기입니다.","teaserCardImage":"/content/dam/ets-org/Rebrand/Photos/insights-teaser-card-image-1.webp","teaserCardImageAlt":"이미지 2","teaserCardLink":"/human-progress-report.html","enableGatedContent":false,"ctas":[]}],"ctas":[]}