Тест "Последний экзамен человечества": приближается ли искусственный интеллект общего назначения?

США - Информационное агентство Эхбари

Тест "Последний экзамен человечества": приближается ли искусственный интеллект общего назначения?

Исследователи из Центра безопасности ИИ и Scale AI представили "Последний экзамен человечества" (Humanity's Last Exam, HLE) — строгий бенчмарк уровня PhD, предназначенный для проверки предельных возможностей рассуждений искусственного интеллекта. Эта комплексная оценка, включающая 2500 вопросов по более чем 100 предметным областям, призвана измерить, насколько продвинутые модели ИИ приближаются к человеческому уровню экспертизы, особенно на уровне докторантуры. Хотя эта инициатива вызывает дискуссии о прогрессе в области общего искусственного интеллекта (AGI), эксперты настоятельно советуют не интерпретировать текущие показатели производительности как окончательное доказательство достижения этой сложной цели.

Концепция теста HLE была официально запущена в январе 2025 года, а методология и обоснование его разработки подробно изложены в исследовании, опубликованном 28 января. Вопросы были составлены при участии более 1000 экспертов в своих областях, представляющих 500 учреждений из 50 стран, что обеспечивает широкую и глубокую базу знаний. Экзамен включает в себя как вопросы с множественным выбором, так и вопросы с кратким ответом. Важно отметить, что каждый вопрос имеет однозначное, легко проверяемое решение, которое нельзя быстро получить с помощью простого поиска в Интернете, тем самым проверяя подлинное понимание и рассуждение, а не просто доступ к данным.

Читайте также

Первоначальное тестирование моделей ИИ на момент запуска бенчмарка включало такие известные модели, как GPT-4o и o1 от OpenAI, Gemini 1.5 Pro от Google, Claude 3.5 Sonnet от Anthropic и DeepSeek R1. Модель o1 от OpenAI показала самый высокий результат среди первой группы — всего 8,3%. Размышляя об этой ранней производительности, исследователи тогда отметили: "Учитывая быстрые темпы развития ИИ, вполне вероятно, что к концу 2025 года модели превысят 50% точности в HLE". Этот прогноз подчеркивал ожидаемый быстрый прогресс в возможностях ИИ.

По состоянию на 12 февраля 2026 года, самый высокий зарегистрированный балл в HLE составляет 48,4%, достигнутый моделью Gemini 3 Deep Think от Google. В резком контрасте, человеческие эксперты обычно набирают около 90% на экзамене в своих областях. Этот значительный разрыв подчеркивает огромную задачу, стоящую перед ИИ в достижении широты и глубины человеческого познания и опыта.

Дизайн "Последнего экзамена человечества" был намеренно разработан для чрезвычайной сложности. Во время разработки исследователи объявили глобальный сбор вопросов от экспертов из различных дисциплин. Были введены строгие критерии подачи заявок, требующие точности, недвусмысленности, решаемости и устойчивости к простым веб-поискам. Цель состояла в том, чтобы помешать моделям ИИ "обманывать", получая легкодоступные ответы в Интернете, что могло бы завысить результаты и исказить истинное понимание. Каждый представленный вопрос тестировался на моделях ИИ, и любой вопрос, на который модели отвечали правильно, автоматически отклонялся. Из более чем 70 000 попыток около 13 000 вопросов успешно поставили в тупик большие языковые модели (LLM). Затем они были тщательно проверены экспертами, одобрены исследовательской группой и открыты для обратной связи сообщества, прежде чем был сформирован окончательный корпус из 2500 вопросов, представляющих собой вызов уровня PhD.

Область применения экзамена обширна и охватывает различные области. Пример вопроса на знание может быть таким: "В греческой мифологии, кем был прадед Ясона по материнской линии?". Физический вопрос может включать расчет сложных силовых динамик для блока на горизонтальной рельсе без трения, соединенного с жестким стержнем. Эта широкая природа отличает HLE от других инструментов оценки ИИ.

Существующие бенчмарки, такие как набор данных Massive Multitask Language Understanding (MMLU), часто фокусируются на более узких областях, таких как программирование и математика, и могут не охватывать весь спектр продвинутых рассуждений. Даже передовые бенчмарки, такие как набор тестов ARC-AGI Франсуа Шолле, подвергались критике за подверженность проблемам запоминания и поиска, которые создатели HLE явно стремились решить. Например, Gemini Deep Think показал 84,6% на бенчмарке ARC-AGI-2, что резко контрастирует с его трудностью превысить 50% на тесте HLE всего за неделю до этого.

Тест "Последний экзамен человечества": приближается ли искусственный интеллект общего назначения?

Оценка уровня PhD бросает вызов моделям ИИ сложными вопросам

Тест "Последний экзамен человечества": приближается ли искусственный интеллект общего назначения?

Читайте также

Похожие новости

Похожие новости

Древние индийские граффити раскрывают 2000-летние связи в Долине Царей Египта

Разгадка тайны древней черепной модификации: почему люди формировали свои головы на разных континентах?

Мангровые леса: Решение на миллиард долларов для защиты побережья и смягчения последствий изменения климата

Передовые умные весы Renpho MorphoScan Nova достигли исторически низкой цены на Amazon в рамках ограниченной флэш-распродажи

Поиск

Последние новости

Анализ обмена Макса Кросби: Победители, проигравшие и последствия для всей лиги

Баскетбол Northside выходит в полуфинал штата LHSAA после десятилетнего перерыва

Древние индийские граффити раскрывают 2000-летние связи в Долине Царей Египта

Разгадка тайны древней черепной модификации: почему люди формировали свои головы на разных континентах?

Мангровые леса: Решение на миллиард долларов для защиты побережья и смягчения последствий изменения климата

Передовые умные весы Renpho MorphoScan Nova достигли исторически низкой цены на Amazon в рамках ограниченной флэш-распродажи

Утерянные на тысячелетия: Два вида сумчатых, считавшихся вымершими, вновь обнаружены в древних лесах Новой Гвинеи

Микробиом Кишечника: Ключевая Роль в Здоровом Старении и Долголетии

Китай выпустил первый электромобиль с натрий-ионной батареей серийного производства с запасом хода 400 км

Снаряжение для йоги для начинающих: обязательные вещи и второстепенные элементы

Телескоп Джеймса Уэбба подтверждает: астероид-«убийца городов» 2024 YR4 безопасно пролетит мимо Земли и Луны в 2032 году

Революционный препарат вселяет надежду в лечение детей с разрушительной формой эпилепсии

Самые читаемые