L'Esame Finale dell'Umanità: Il Test Più Difficile per l'IA, Ma Non un Segno di AGI

Stati Uniti - Agenzia stampa Ekhbary

L'Esame Finale dell'Umanità: Il Test Più Difficile per l'IA, Ma Non un Segno di AGI

Nel campo della ricerca sull'intelligenza artificiale (IA) si è verificato uno sviluppo significativo: è stato introdotto un nuovo test di riferimento denominato "L'Esame Finale dell'Umanità" (Humanity's Last Exam - HLE), che mira a valutare rigorosamente le capacità di ragionamento dei modelli di IA più avanzati al mondo. Sviluppato dai ricercatori del Center for AI Safety e di Scale AI, l'esame è progettato per essere eccezionalmente difficile, operando a livello di dottorato. Sebbene il modello Gemini 3 di Google abbia ottenuto un notevole punteggio del 48,4%, gli esperti sottolineano rapidamente che questa performance, per quanto impressionante, non equivale all'avvento dell'Intelligenza Artificiale Generale (AGI).

L'HLE, dettagliato in uno studio pubblicato sulla rivista Nature, comprende 2.500 domande che coprono oltre 100 argomenti diversi. La creazione di queste domande ha richiesto un massiccio sforzo collaborativo, con il contributo di oltre 1.000 esperti di materia affiliati a 500 istituzioni in 50 paesi. L'esame è strutturato per includere formati a scelta multipla e a risposta breve. Un principio di progettazione fondamentale è che le soluzioni debbano essere inequivocabili, facilmente verificabili e, soprattutto, non facilmente reperibili tramite ricerche standard su Internet. Ciò garantisce che il test misuri la reale comprensione e capacità di ragionamento, piuttosto che la semplice estrazione di dati o il riconoscimento di schemi.

Leggi anche

Al momento del lancio iniziale del test nel gennaio 2025, sono stati valutati diversi modelli di IA all'avanguardia. Tra questi figuravano GPT-4o e o1 di OpenAI, Gemini 1.5 Pro di Google, Claude 3.5 Sonnet di Anthropic e DeepSeek R1. Il modello o1 di OpenAI ha ottenuto il punteggio iniziale più alto, solo l'8,3%, evidenziando la natura impegnativa del test. Nonostante questi primi risultati, i ricercatori hanno notato il rapido ritmo di sviluppo dell'IA, suggerendo che "i modelli potrebbero superare il 50% di accuratezza sull'HLE entro la fine del 2025".

Al 12 febbraio 2026, questa previsione è stata in parte convalidata dal modello Gemini 3 Deep Think di Google che ha raggiunto il 48,4%. A titolo di confronto, gli esperti umani generalmente ottengono circa il 90% nei rispettivi domini. Questo divario significativo sottolinea la sfida posta dall'HLE, anche per i sistemi di IA più sofisticati attualmente disponibili.

Il processo di sviluppo dell'HLE è stato meticoloso. I ricercatori hanno attivamente richiesto domande a esperti di tutto il mondo, imponendo rigorosi criteri di precisione, chiarezza, risolvibilità e resistenza alle semplici ricerche web. L'obiettivo era impedire ai modelli di IA di "barare" accedendo a informazioni facilmente disponibili online, il che avrebbe potuto gonfiare i loro punteggi senza riflettere una reale comprensione. Qualsiasi domanda a cui i modelli di IA potessero rispondere facilmente correttamente veniva automaticamente respinta durante la fase di sviluppo.

Sono state proposte e testate oltre 70.000 potenziali domande. Circa 13.000 domande sono riuscite a mettere in difficoltà i modelli linguistici di grandi dimensioni (LLM). Queste domande impegnative sono state poi rigorosamente esaminate da esperti di materia, approvate dal team di ricerca e aperte al feedback pubblico prima che venisse stabilito il corpus finale di 2.500 domande. Queste domande sono progettate per avere un livello di difficoltà pari a quello di un dottorato.

Esempi forniti illustrano la complessità del test. Una domanda di trivia potrebbe essere: "Nella mitologia greca, chi era il bisnonno materno di Giasone?" Una domanda di fisica potrebbe comportare il calcolo della relazione tra le forze durante il movimento in uno scenario che coinvolge un blocco su un binario orizzontale senza attrito collegato a un'asta rigida e senza massa di lunghezza sconosciuta. L'ampiezza e la profondità degli argomenti differenziano l'HLE da altri benchmark.

Rispetto ad altri strumenti di valutazione dell'IA comunemente utilizzati, come il set di dati Massive Multitask Language Understanding (MMLU), che si concentra su aree specifiche come la codifica e la matematica, l'HLE offre una valutazione molto più ampia. Anche i benchmark avanzati come la suite ARC-AGI di Francois Chollet, che mira a testare il ragionamento oltre la semplice memorizzazione, sono considerati meno efficaci dai creatori dell'HLE nell'affrontare il problema della ricercabilità. Ad esempio, Gemini Deep Think ha ottenuto l'84,6% nel benchmark ARC-AGI-2 poco dopo aver fallito il superamento del 50% nel test HLE.

Notizie correlate

Mentre "L'Esame Finale dell'Umanità" rappresenta un progresso significativo nella valutazione delle capacità dell'IA rispetto all'esperienza umana, i suoi creatori insistono categoricamente sul fatto che un'elevata performance sull'HLE non equivale all'AGI. "Un'elevata accuratezza sull'HLE dimostrerebbe prestazioni di livello esperto su domande chiuse e verificabili e conoscenze scientifiche all'avanguardia, ma da sola non suggerirebbe capacità di ricerca autonome o intelligenza artificiale generale", hanno dichiarato gli autori dello studio. Manuel Schottdorf, neuroscienziato e uno dei contributori dell'HLE, ha fatto eco a questo sentimento: "Andare bene sull'HLE è un criterio necessario, ma non sufficiente, per affermare che le macchine hanno raggiunto la vera intelligenza. Dovranno essere abbastanza brave da risolvere queste domande, ma questo da solo non può permetterci di concludere che le macchine siano veramente intelligenti."

L'articolo è stato scritto da Tristan, un giornalista scientifico e tecnologico con sede negli Stati Uniti, che copre l'IA, la fisica teorica e le storie di tecnologia all'avanguardia, con precedente esperienza come programmatore e ingegnere nella Marina degli Stati Uniti.

Agenzia stampa Ekhbary

L'Esame Finale dell'Umanità: Il Test Più Difficile per l'IA, Ma Non un Segno di AGI

Il modello Gemini 3 di Google ottiene il 48,4% in un benchma