인류의 마지막 시험: AI의 가장 어려운 시험, 그러나 AGI의 징후는 아니다

미국 - 이크바리 뉴스 통신사

인류의 마지막 시험: AI의 가장 어려운 시험, 그러나 AGI의 징후는 아니다

인공지능(AI) 연구 분야에서 중대한 발전이 있었습니다. '인류의 마지막 시험'(Humanity's Last Exam - HLE)이라는 새로운 벤치마크 테스트가 도입되어, 세계에서 가장 발전된 AI 모델들의 추론 능력을 엄격하게 평가하는 것을 목표로 합니다. AI 안전 센터(Center for AI Safety)와 Scale AI의 연구원들이 개발한 이 시험은 박사급 수준에서 운영되며, 극도로 어렵도록 설계되었습니다. 구글의 Gemini 3 모델이 48.4%라는 주목할 만한 점수를 달성했지만, 전문가들은 이 성과가 아무리 인상적이라 할지라도 인공 일반 지능(AGI)의 도래와 동일시될 수는 없다고 신속하게 강조합니다.

'네이처'(Nature) 저널에 발표된 연구에서 상세히 설명된 HLE는 100개 이상의 다양한 주제를 다루는 2,500개의 질문으로 구성됩니다. 이 질문들의 생성에는 50개국 500개 기관에 소속된 1,000명 이상의 해당 분야 전문가들의 참여를 포함한 대규모 협력 노력이 필요했습니다. 시험은 객관식 및 단답형 형식을 포함하도록 구조화되어 있습니다. 핵심 설계 원칙은 해답이 모호하지 않고, 쉽게 검증 가능하며, 가장 중요하게는 표준 인터넷 검색으로는 쉽게 찾을 수 없어야 한다는 것입니다. 이는 테스트가 단순한 데이터 검색이나 패턴 인식보다는 진정한 이해와 추론 능력을 측정하도록 보장합니다.

Read Also

2025년 1월 테스트가 처음 시작되었을 때, 여러 선도적인 AI 모델들이 평가되었습니다. 여기에는 OpenAI의 GPT-4o 및 o1, 구글의 Gemini 1.5 Pro, Anthropic의 Claude 3.5 Sonnet, 그리고 DeepSeek R1이 포함되었습니다. OpenAI의 o1 모델은 단 8.3%의 점수로 가장 높은 초기 점수를 기록했으며, 이는 테스트의 까다로운 특성을 강조합니다. 이러한 초기 결과에도 불구하고, 연구원들은 AI의 빠른 발전 속도를 언급하며, "2025년 말까지 모델들이 HLE에서 50% 정확도를 초과할 수 있을 것"이라고 추측했습니다.

2026년 2월 12일 현재, 구글의 Gemini 3 Deep Think 모델이 48.4%에 도달하면서 이 예측은 부분적으로 확인되었습니다. 참고로, 인간 전문가는 일반적으로 각자의 분야에서 약 90%의 점수를 얻습니다. 이 상당한 격차는 현재 사용 가능한 가장 정교한 AI 시스템조차도 HLE가 제기하는 도전을 강조합니다.

HLE의 개발 과정은 세심했습니다. 연구원들은 전 세계 전문가들로부터 적극적으로 질문을 요청했으며, 질문의 정확성, 명확성, 해결 가능성 및 단순 웹 검색에 대한 저항성에 대한 엄격한 기준을 적용했습니다. 목표는 AI 모델이 쉽게 온라인에서 얻을 수 있는 정보에 접근하여 실제 이해를 반영하지 않고도 점수를 부풀리는 "부정행위"를 하는 것을 방지하는 것이었습니다. AI 모델이 쉽게 정답을 맞힐 수 있는 모든 질문은 개발 단계에서 자동으로 거부되었습니다.

초기에는 70,000개 이상의 잠재적 질문이 제출되고 테스트되었습니다. 약 13,000개의 질문이 대규모 언어 모델(LLM)을 성공적으로 당황하게 만들었습니다. 이러한 어려운 질문들은 이후 해당 분야 전문가들에 의해 엄격하게 검토되었고, 연구팀에 의해 승인되었으며, 최종 2,500개의 질문 데이터셋이 확립되기 전에 공개 피드백을 위해 개방되었습니다. 이 질문들은 박사급 난이도를 갖도록 설계되었습니다.

제공된 예시는 테스트의 복잡성을 보여줍니다. 상식 퀴즈 질문은 "그리스 신화에서 제이슨의 외증조부는 누구인가?"일 수 있습니다. 물리 문제에는 알려지지 않은 길이의 강성 무질량 막대에 연결된, 마찰 없는 수평 레일 위에서 움직이는 블록을 포함하는 시나리오에서 힘 사이의 관계를 계산하는 것이 포함될 수 있습니다. 주제의 폭과 깊이는 HLE를 다른 벤치마크와 차별화합니다.

코딩 및 수학과 같은 특정 영역에 초점을 맞춘 대규모 다중 작업 언어 이해(MMLU) 데이터셋과 같은 다른 일반적인 AI 평가 도구와 비교할 때, HLE는 훨씬 더 광범위한 평가를 제공합니다. 단순 암기를 넘어서는 추론 능력을 테스트하는 것을 목표로 하는 프랑수아 숄레의 ARC-AGI 시리즈와 같은 고급 벤치마크조차도 HLE 제작자들이 정보 검색 문제를 해결하는 데 덜 효과적이라고 간주합니다. 예를 들어, Gemini의 Deep Think는 HLE 테스트에서 50% 미만을 기록한 지 일주일 만에 ARC-AGI-2 벤치마크에서 84.6%를 기록했습니다.

Related News

'인류의 마지막 시험'은 인간 전문성에 대한 AI 능력 평가에 있어 중요한 발전을 나타내지만, 그 제작자들은 HLE에서의 높은 성과가 AGI와 동일시될 수 없다고 단호하게 주장합니다. 연구 저자들은 "HLE에서의 높은 정확도는 폐쇄형, 검증 가능한 질문과 최첨단 과학 지식에 대한 전문가 수준의 성과를 입증하겠지만, 그 자체만으로는 자율적인 연구 능력이나 인공 일반 지능을 시사하지는 않을 것"이라고 말했습니다. HLE의 기여자 중 한 명인 신경과학자 마누엘 쇼트도르프는 "HLE에서 좋은 성적을 거두는 것은 기계가 진정한 지능에 도달했다고 말하기 위한 필요조건이지만 충분조건은 아니다. 그들은 이러한 질문을 해결할 만큼 충분히 좋아야 하지만, 그것만으로는 기계가 정말 지능적이라고 결론 내릴 수 없다"고 덧붙였습니다.

이 기사는 미국에 기반을 둔 과학 기술 저널리스트인 트리스탄이 작성했으며, AI, 이론 물리학, 최첨단 기술 이야기를 다룹니다. 그는 미 해군에서 프로그래머 및 엔지니어로 10년간 복무한 경험이 있습니다.

이크바리 뉴스 통신사

인류의 마지막 시험: AI의 가장 어려운 시험, 그러나 AGI의 징후는 아니다

구글의 Gemini 3 모델이 박사급 벤치마크에서 48.4%를 기록했지만, 전문가들은 높은 점수가 인공 일반