L'examen "Le Dernier Examen de l'Humanité" : Le test le plus difficile pour l'IA, mais pas un signe d'AGI

États-Unis - Agence de presse Ekhbary

L'examen "Le Dernier Examen de l'Humanité" : Le test le plus difficile pour l'IA, mais pas un signe d'AGI

Dans une avancée significative pour la recherche sur l'intelligence artificielle, un nouveau test de référence, baptisé "Le Dernier Examen de l'Humanité" (Humanity's Last Exam - HLE), a été introduit. Son objectif est d'évaluer rigoureusement les capacités de raisonnement des modèles d'IA les plus avancés au monde. Développé par des chercheurs du Center for AI Safety et de Scale AI, cet examen est conçu pour être exceptionnellement difficile, opérant au niveau d'un doctorat. Bien que le modèle Gemini 3 de Google ait obtenu un score remarquable de 48,4 %, les experts insistent rapidement sur le fait que cette performance, aussi impressionnante soit-elle, ne signifie pas l'arrivée de l'intelligence artificielle générale (AGI).

Le HLE, détaillé dans une étude publiée dans la revue scientifique Nature, comprend 2 500 questions couvrant plus de 100 sujets divers. La création de ces questions a nécessité un effort de collaboration massif, avec la contribution de plus de 1 000 experts dans leurs domaines respectifs, affiliés à 500 institutions réparties dans 50 pays. L'examen est structuré pour inclure des questions à choix multiples et des réponses courtes. Un principe de conception essentiel est que les solutions doivent être sans ambiguïté, facilement vérifiables et, surtout, difficiles à trouver par une simple recherche sur Internet. Cela garantit que le test mesure la compréhension réelle et la capacité de raisonnement, plutôt que la simple récupération de données ou la reconnaissance de formes.

Lire aussi

Lors du lancement initial du test en janvier 2025, plusieurs modèles d'IA de premier plan ont été évalués. Parmi eux figuraient GPT-4o et o1 d'OpenAI, Gemini 1.5 Pro de Google, Claude 3.5 Sonnet d'Anthropic et DeepSeek R1. Le modèle o1 d'OpenAI a obtenu le score le plus élevé initialement, à seulement 8,3 %, soulignant la difficulté du test. Malgré ces premiers résultats, les chercheurs ont noté le rythme rapide du développement de l'IA, suggérant que "les modèles pourraient dépasser 50 % de précision sur HLE d'ici la fin de 2025".

Au 12 février 2026, cette prédiction a été partiellement validée avec le modèle Gemini 3 Deep Think de Google atteignant 48,4 %. À titre de comparaison, les experts humains obtiennent généralement environ 90 % dans leurs domaines respectifs. Cet écart significatif souligne le défi que représente le HLE, même pour les systèmes d'IA les plus sophistiqués actuellement disponibles.

Le processus de développement du HLE a été méticuleux. Les chercheurs ont sollicité activement des questions auprès d'experts du monde entier, en appliquant des critères stricts de précision, de clarté, de solvabilité et de résistance aux recherches web simples. L'objectif était d'empêcher les modèles d'IA de "tricher" en accédant à des informations facilement disponibles en ligne, ce qui pourrait gonfler leurs scores sans refléter une compréhension réelle. Toute question à laquelle les modèles d'IA pouvaient répondre correctement était automatiquement rejetée pendant la phase de développement.

Plus de 70 000 questions potentielles ont été soumises et testées initialement. Environ 13 000 questions ont réussi à déconcerter les grands modèles linguistiques (LLM). Ces questions difficiles ont ensuite été rigoureusement examinées par des experts, approuvées par l'équipe de recherche, et soumises à des commentaires publics avant que le corpus final de 2 500 questions ne soit établi. Ces questions sont conçues pour être d'un niveau de difficulté comparable à celui d'un doctorat.

Des exemples fournis illustrent la complexité du test. Une question de culture générale pourrait être : "Dans la mythologie grecque, qui était l'arrière-grand-père maternel de Jason ?" Une question de physique pourrait impliquer le calcul de la relation entre les forces pendant le mouvement dans un scénario impliquant un bloc sur un rail horizontal sans frottement, relié à une tige rigide et sans masse de longueur inconnue. L'ampleur et la profondeur des sujets différencient le HLE des autres évaluations.

Comparés à d'autres outils d'évaluation de l'IA, tels que le jeu de données Massive Multitask Language Understanding (MMLU), qui se concentre sur des domaines spécifiques comme le codage et les mathématiques, le HLE offre une évaluation beaucoup plus large. Même les benchmarks avancés comme la suite ARC-AGI de Francois Chollet, qui vise à tester le raisonnement au-delà de la simple mémorisation, sont considérés comme moins efficaces par les créateurs du HLE pour résoudre le problème de la recherche d'informations. Par exemple, le Gemini Deep Think a obtenu 84,6 % sur le benchmark ARC-AGI-2 peu avant sa performance de 48,4 % sur le HLE.

Actualités connexes

Bien que "Le Dernier Examen de l'Humanité" représente une avancée significative dans l'évaluation des capacités de l'IA par rapport à l'expertise humaine, ses créateurs insistent sur le fait qu'une performance élevée sur le HLE n'équivaut pas à l'AGI. "Une précision élevée sur HLE démontrerait une performance de niveau expert sur des questions fermées et vérifiables et une connaissance scientifique de pointe, mais elle ne suggérerait pas à elle seule des capacités de recherche autonomes ou une intelligence artificielle générale", ont déclaré les auteurs de l'étude. Manuel Schottdorf, neuroscientifique et l'un des contributeurs du HLE, a fait écho à ce sentiment : "Bien performer sur HLE est un critère nécessaire, mais non suffisant, pour dire que les machines ont atteint une véritable intelligence. Elles devront être suffisamment bonnes pour résoudre ces questions, mais cela seul ne peut pas nous permettre de conclure que les machines sont vraiment intelligentes."

L'article a été rédigé par Tristan, un journaliste scientifique et technologique basé aux États-Unis, couvrant l'IA, la physique théorique et les technologies de pointe, avec une expérience antérieure en tant que programmeur et ingénieur dans la marine américaine.

Agence de presse Ekhbary