생각만큼 쉽지 않아요.
OpenAI의 ChatGPT와 Meta의 Llama 같은 대형 언어 모델(LLM)은 한동안 우리의 삶을 변화시켜 왔습니다. 하지만 선택할 수 있는 모델이 너무 많아 많은 사람들이 어떤 모델이 '최고'인지 궁금해합니다. 이 질문에 답하기 위해 연구자와 사용자 모두 벤치마크와 테스트를 통해 가장 어려운 코딩 문제를 해결 했거나 SAT 점수가 가장 높았던 모델을 찾으려 합니다. 이 글에서는 세 가지 점을 논의하고자 합니다.
- 벤치마크나 전통적인 테스트 모두 현대 LLM의 기능을 평가하는 데 적합하지 않습니다.
- 인간과 유사한 능력을 보이지만 인간과 같은 지능과 인지를 갖추지 못한 LLM은 심리측정학 분야에 완전히 새로운 차원을 더합니다.
- 결과를 자신 있게 해석할 수 있는 LLM 평가를 도출하기 위해서는 상당한 연구가 필요할 것입니다.
벤치마크
벤치마크는 전통적으로 소프트웨어와 하드웨어의 성능을 평가하는 데 사용되어 왔습니다. 벤치마크는 도구가 특별히 설계된 일련의 작업을 완료함으로써 그 성능을 평가합니다. 이미지 분류기는 일부 이미지를 분류하는 방식으로 벤치마크되며, 컴퓨터 프로세서는 일련의 복잡한 계산을 실행하여 벤치마킹됩니다.
LLM의 벤치마킹은 간단하지 않습니다. 첫째, LLM은 특정 작업을 위해 훈련된 것이 아닙니다: 텍스트 분류에 사용될 수는 있지만 텍스트 분류기는 아닙니다; 에세이 점수를 매기는 데 사용될 수는 있지만 자동 채점기는 아닙니다 — 등등. 따라서 벤치마크 결과는 어떤 LLM이 사용되었는지뿐만 아니라 어떻게 사용되었는지에 따라 달라집니다. 이러한 모호성은 결과의 신뢰성을 떨어뜨리고, 예를 들어 다른 프롬프트가 다른 결과를 낳았을지에 대한 논쟁을 자주 불러일으킵니다.
벤치마크의 또 다른 두 가지 일반적인 문제는 포화(spatiation)로, 최근 모델들이 모두 완벽한 점수에 근접하는 상황과, 콘훅(contamation)으로, 벤치마크의 일부 또는 모든 요소가 모델 학습 데이터에 포함된다는 현상입니다. LLM의 경우 두 가지 문제 모두 특히 심각한데, 이는 학습 속도가 빠르고 학습 데이터가 사실상 인터넷 전체를 포함하고 있기 때문입니다.
이러한 문제들로 인해, 많은 LLM 벤치마크는 LLM의 전반적인 품질을 평가하는 데 제한적인 가치를 제공합니다. 이러한 단점은 다양한 품질 기준에 따라 벤치마크를 벤치마킹하려는 이니셔티브를 촉발했습니다. 이러한 노력은 포화 및 오염 여부를 모니터링하고 필요시 업데이트하거나 재보정하는 신중하게 설계된 문제 세트를 포함한 고품질 벤치마크 세트를 구축하는 것을 목표로 합니다. 이와 관련해 벤치마크는 처음부터 흔했던 전통적인 테스트에 점점 더 가까워지고 있습니다. 하지만 벤치마킹에서 AI 테스트로 전환하는 데에는 고유한 도전 과제가 있습니다.
테스트
사실상 모든 사람이 대학 입학, 전문 면허, 운전면허 등 인생에서 한 번쯤은 시험을 받아본 적이 있습니다. 이러한 시험은 벤치마크와는 현저히 다릅니다. 무엇보다도, 시험이 평가하는 능력이나 지식은 직접적으로 측정하기에는 너무 복잡합니다. 예를 들어, 학생의 대학 준비 성과는 학부 프로그램 선택을 허용한다고 해서 평가할 수 없습니다. 따라서 시험은 유효성을 위해 신중하게 설계되어야 합니다.
두 가지 일반적인 타당성 증거 유형을 생각해 봅시다: 예측 및 내용 관련 증거. 시험의 타당성에 대한 예측 증거는 점수가 중요한 관찰 가능한 결과와 성과를 얼마나 예측하는지에 따라 결정할 수 있습니다. 예를 들어, SAT 점수는 다양한 학업 성취 지표와 잘 상관관계가 있습니다. 내용 관련 증거는 시험이 검사 대상 능력을 반영한다고 시사합니다. 예를 들어, 테니스 맥락에서 대수학 문제를 해결하려면 테니스 규칙 지식이 필요 없으며, 단지 테니스 규칙 지식만으로 답할 수도 없습니다.
인간을 위한 시험을 LLM이 치르게 할 때 타당성 문제는 필연적으로 발생합니다. 예측 증거를 예로 들어보겠습니다: LLM은 SAT를 만점으로 볼 수 있지만 대학에 등록하지 않습니다; 변호사 시험은 우수한 성적으로 통과할 수 있지만, 적어도 당분간은 법정에서 고객을 대리하지 못합니다. 내용 관련 증거에서도 유사한 문제가 발생합니다. 만약 인간이 대수학 시험에서 높은 점수를 받는다면, 시험 문항에서 탐구하는 대수 법칙을 이해하고 적용할 수 있다고 추론할 수 있습니다. 반면, LLM이 대수 문제를 어떻게 해결하는지, 그리고 정말로 일반화 가능한 법칙을 배우는지에 대한 질문은 아직 대부분 답이 나지 않았습니다. 일반적으로 시험 대상의 개념이 복잡할수록 LLM 시험 점수의 해석은 더 추측적으로 변합니다: 의료 면허 시험에서 높은 점수를 받은 LLM이 임상 의학이나 환자 관리 능력에 대한 지식을 정말로 입증할 수 있는가?
하지만 더 많은 업무와 책임이 LLM에 위임되면서, LLM을 위해 특별히 설계된 초기 테스트들이 등장하고 있습니다. 예를 들어, 고객 서비스를 위해 LLM을 사용하는 기업은 배포 전에 새로운 모델을 테스트해야 합니다. 이러한 테스트는 처음에는 벤치마크와 건전성 점검의 모음으로 시작될 수 있지만, 시간이 지나면서 점점 더 구조화되고 이전 모델들이 겪었거나 잘못 다뤘던 문제의 중요한 측면을 포착하는 정교한 항목들이 포함되는 경향이 있습니다. 결과적으로 테스트는 모델이 회사의 고객 서비스 요구를 충족할 수 있는 능력을 나타내는 점점 더 유용한 지표가 될 것입니다.
이러한 '프로토 테스트'는 유용하지만, 종종 독점적이고 범위가 제한적이며 과학적 탐구보다는 운영상의 필요에 의해 추진됩니다.
연구 과제
앞서 주장했듯이, LLM의 독특한 비인간적 지능은 테스트 이론과 심리측정학의 많은 가정을 무효화합니다. 어떤 테스트가 LLM에 적합한지, 어떤 테스트 결과 해석이 과학적으로 타당한 실험으로 뒷받침될 수 있는지 규명하기 위해서는 상당한 연구 노력이 필요할 것입니다.
더불어, 방대한 데이터 세트에서 처음부터 훈련된 대규모 네트워크만이 인간과 유사한 능력을 가진 유일한 시스템으로 남을 가능성은 낮습니다. 예를 들어, 공동 임베딩 예측 아키텍처(JEPA )는 환경을 직접 관찰하고 상호작용함으로써 보다 인간적인 방식으로 학습하는 반면, 신경기호 AI 는 상징적 추론과 명시적 지식 표현에 집중합니다. 따라서 연구자들은 곧 동일한 능력을 만들어내는 다양한 유형의 지능 에 직면할 수 있습니다.
이는 근본적인 질문을 제기합니다: 기본 지능 유형과 독립적으로 개념을 정의할 수 있을까요? 예를 들어, "비판적으로 사고하는 능력"이 인간과 다양한 AI에서 동일한가요? 그렇다면 어떻게 측정 해야 할까요? 각 지능 유형마다 별도의 테스트가 필요할까요? 예를 들어, 비판적 사고 테스트는 응시자의 문해력 수준 차이를 고려할 수 있지만, 모든 응시자가 세기와 방정을 알 수 있다고 가정할 가능성이 큽니다. LLM의 경우, 정반대입니다: 설계상 높은 문해력을 가지지만 기본 기술이 부족할 수 있습니다. 이러한 차이를 고려하지 않는 한, LLM 시험 결과는 오해에 취약합니다.
마지막으로, AI 테스트와 더 확립된 심리측정학 분야 간에 흥미로운 상호 교류가 있을 수 있습니다. 예를 들어 , 연령, 성별, 문화, 교육 등 신경 학적 장애 외에도 개인의 인지 과정에 영향을 미치는 요인이 입증되었습니다. 이 맥락에서 AI는 신경다양성 지능의 극단적인 사례로 볼 수 있습니다. 이 극단적인 사례에 대한 더 나은 이해는 보다 개인화되고 공정하며 객관적인 평가를 가능하게 하여 독특한 인지 특성을 가진 학습자들이 자신의 역량 전반을 보여줄 수 있게 할 수 있습니다.
결론적으로, LLM 평가는 상당한 도전이지만, ETS의 동료 연구자들과 저는 현대 심리측정학의 기법을 개선하고 한계를 넓힐 수 있는 기회에 매우 기대하고 있습니다.
마이클 포스 는 ETS 연구소의 연구 과학자입니다. 그의 연구는 윤리적 AI에 중점을 두고 있습니다.