Эхбари
Saturday, 07 March 2026
Breaking

Тест "Последний экзамен человечества": приближается ли искусственный интеллект общего назначения?

Оценка уровня PhD бросает вызов моделям ИИ сложными вопросам

Тест "Последний экзамен человечества": приближается ли искусственный интеллект общего назначения?
Ekhbary
1 week ago
28

США - Информационное агентство Эхбари

Тест "Последний экзамен человечества": приближается ли искусственный интеллект общего назначения?

Исследователи из Центра безопасности ИИ и Scale AI представили "Последний экзамен человечества" (Humanity's Last Exam, HLE) — строгий бенчмарк уровня PhD, предназначенный для проверки предельных возможностей рассуждений искусственного интеллекта. Эта комплексная оценка, включающая 2500 вопросов по более чем 100 предметным областям, призвана измерить, насколько продвинутые модели ИИ приближаются к человеческому уровню экспертизы, особенно на уровне докторантуры. Хотя эта инициатива вызывает дискуссии о прогрессе в области общего искусственного интеллекта (AGI), эксперты настоятельно советуют не интерпретировать текущие показатели производительности как окончательное доказательство достижения этой сложной цели.

Концепция теста HLE была официально запущена в январе 2025 года, а методология и обоснование его разработки подробно изложены в исследовании, опубликованном 28 января. Вопросы были составлены при участии более 1000 экспертов в своих областях, представляющих 500 учреждений из 50 стран, что обеспечивает широкую и глубокую базу знаний. Экзамен включает в себя как вопросы с множественным выбором, так и вопросы с кратким ответом. Важно отметить, что каждый вопрос имеет однозначное, легко проверяемое решение, которое нельзя быстро получить с помощью простого поиска в Интернете, тем самым проверяя подлинное понимание и рассуждение, а не просто доступ к данным.

Первоначальное тестирование моделей ИИ на момент запуска бенчмарка включало такие известные модели, как GPT-4o и o1 от OpenAI, Gemini 1.5 Pro от Google, Claude 3.5 Sonnet от Anthropic и DeepSeek R1. Модель o1 от OpenAI показала самый высокий результат среди первой группы — всего 8,3%. Размышляя об этой ранней производительности, исследователи тогда отметили: "Учитывая быстрые темпы развития ИИ, вполне вероятно, что к концу 2025 года модели превысят 50% точности в HLE". Этот прогноз подчеркивал ожидаемый быстрый прогресс в возможностях ИИ.

По состоянию на 12 февраля 2026 года, самый высокий зарегистрированный балл в HLE составляет 48,4%, достигнутый моделью Gemini 3 Deep Think от Google. В резком контрасте, человеческие эксперты обычно набирают около 90% на экзамене в своих областях. Этот значительный разрыв подчеркивает огромную задачу, стоящую перед ИИ в достижении широты и глубины человеческого познания и опыта.

Дизайн "Последнего экзамена человечества" был намеренно разработан для чрезвычайной сложности. Во время разработки исследователи объявили глобальный сбор вопросов от экспертов из различных дисциплин. Были введены строгие критерии подачи заявок, требующие точности, недвусмысленности, решаемости и устойчивости к простым веб-поискам. Цель состояла в том, чтобы помешать моделям ИИ "обманывать", получая легкодоступные ответы в Интернете, что могло бы завысить результаты и исказить истинное понимание. Каждый представленный вопрос тестировался на моделях ИИ, и любой вопрос, на который модели отвечали правильно, автоматически отклонялся. Из более чем 70 000 попыток около 13 000 вопросов успешно поставили в тупик большие языковые модели (LLM). Затем они были тщательно проверены экспертами, одобрены исследовательской группой и открыты для обратной связи сообщества, прежде чем был сформирован окончательный корпус из 2500 вопросов, представляющих собой вызов уровня PhD.

Область применения экзамена обширна и охватывает различные области. Пример вопроса на знание может быть таким: "В греческой мифологии, кем был прадед Ясона по материнской линии?". Физический вопрос может включать расчет сложных силовых динамик для блока на горизонтальной рельсе без трения, соединенного с жестким стержнем. Эта широкая природа отличает HLE от других инструментов оценки ИИ.

Существующие бенчмарки, такие как набор данных Massive Multitask Language Understanding (MMLU), часто фокусируются на более узких областях, таких как программирование и математика, и могут не охватывать весь спектр продвинутых рассуждений. Даже передовые бенчмарки, такие как набор тестов ARC-AGI Франсуа Шолле, подвергались критике за подверженность проблемам запоминания и поиска, которые создатели HLE явно стремились решить. Например, Gemini Deep Think показал 84,6% на бенчмарке ARC-AGI-2, что резко контрастирует с его трудностью превысить 50% на тесте HLE всего за неделю до этого.

Хотя "Последний экзамен человечества" представляет собой значительный прогресс в оценке широких возможностей современного ИИ по сравнению с человеческими экспертами, авторы исследования категоричны: достижение высокого балла в HLE не равнозначно наступлению AGI. "Высокая точность в HLE продемонстрирует экспертный уровень производительности в закрытых, проверяемых вопросах и передовых научных знаниях, но сама по себе она не укажет на автономные исследовательские возможности или общий искусственный интеллект", — заявили ученые в своем исследовании. Мануэль Шоттдорф, нейробиолог из Университета Делавэра и один из участников HLE, вторил этому мнению: "Хорошо сдать HLE — это необходимое, но недостаточное условие, чтобы сказать, что машины достигли истинного интеллекта. Они должны быть достаточно хороши, чтобы решать эти вопросы, но сам по себе этот факт не позволяет нам сделать вывод, что машины действительно разумны".

Ключевые слова: # ИИ # Искусственный интеллект # Последний экзамен человечества # HLE # AGI # Общий искусственный интеллект # Google Gemini # OpenAI # бенчмарк ИИ # Большие языковые модели # тестирование LLM