Dietro l'ombra dell'orso....: Il superamento del test di Turing con il “Quesito con la Susi”

È successo di nuovo. OpenAI ha lanciato GPT-5, annunciato come "il suo modello AI più avanzato", un salto quantico rispetto alle versioni precedenti.

Ormai siamo abituati al marketing di frontiera, dove non si presenta un prodotto con le tradizionali “note de release”, ma con slogan altisonanti cha lasciano intendere fantastiche prestazioni mai viste prima, senza entrare nel merito delle reali funzionalità.

Indubbiamente GPT 5 è un miglioramento notevole, sicuramente lo sarà per determinate attività e per situazioni dove porterà potenza e automazione.

Ma utilizza pur sempre la stessa architettura, la stessa tecnologia di base, e quindi può evolvere, ottimizzare, perfezionare – ma non rivoluzionare. Si porta dietro molti dei difetti strutturali del passato, come un palazzo antico che, per quanto ristrutturato, mantiene le fondamenta originali con tutte le loro crepe.

I primi test della nuova piattaforma pare non abbiano superato certi limiti strutturali in situazioni ben conosciute dove i sistemi non riescono a risolvere problemi banali, proprio per i limiti intrinsechi.

L’automobile ha rivoluzionato i trasporti, surclassando cavalli e carrozze, e la tecnologia negli anni ha prodotto auto sempre piu’ veloci, piu’ comode, piu’ sicure. Termiche, elettriche, ad idrogeno... ma pur sempre automobili, che non possono da un giorno all’altro con un nuovo modello, o meglio con "una nuova release"… Volare. E nessuno se lo aspetta, nessuno lo pretende e nessun costruttore dice che tra qualche anno voleranno.

A meno di non cambiare l’architettura: per volare ci sono gli aerei, una tecnologia nuova, diversa.

Le piattaforme AI saranno sempre piu’ fantastiche, sempre piu’ potenti, sempre piu’ affabili, assertive, affascinanti, ma non in grado di essere consapevoli, di andare oltre.

Queste piattafome di AI, per il momento, con questa seppur sofisiticate tencologie, con la potenza inaudita delle GPU e delle mega Serverfarms.... "non possono volare".

A meno che non arrivi qualcosa di nuovo, una nuova soluzione tecnologia, che oggi non sembra ancora delinearsi all’orizzonte.

Ora, è vero che non dovremmo giudicare un'AI dalla sua capacità di trovare le R nella parola "strawberry", o farlo cadere in errore con la famosa operazione “8.9 -8,11” (pare che anche GPT5 sia caduto negli stessi tranelli), però ammettiamolo è frustrante sapere che questi sistemi stanno cambiando le nostre vite e possono sviluppare codice alla velocità della luce, poi non riescono a distinguere le cifre decimali (anche se noi, indulgenti, ormai sappiamo il perché).

Per essere banali ricordiamo che i sistemi AI attuali trasformano qualsiasi input in token discreti, poi convertono ogni token in vettori numerici - alla fine è tutto "numeri e bit&byte", perdendo informazioni o meglio "conoscenza" quando devono interagire con relazioni topologiche qualitative relativamente banali per il ragionamento umano.

Proprio la conoscenza Topologica e il ragionamento topologico sono ancora un grosso limite per sistemi che eccellono nel "pattern matching", nel processare dati su griglie regolari.

Forse una comunicazione più onesta, trasparente e corretta da parte delle aziende aiuterebbe tutti a utilizzare questi strumenti nel modo migliore.

Invece di promettere la rivoluzione di domani, perché non spiegare chiaramente cosa questi strumenti fanno bene oggi e cosa invece no? Invece di parlare di "intelligenza artificiale generale" dietro l'angolo, perché non essere espliciti sui limiti architetturali attuali?

Il punto non è criticare l'AI o sminuire i progressi reali che vengono fatti. GPT-5, Claude 4, e tutti gli altri modelli di nuova generazione sono strumenti potentissimi che possono davvero migliorare la produttività , la qualità e il supporto operativo in molti ambiti. Il punto è avere aspettative realistiche e strumenti di valutazione che ci dicano davvero cosa aspettarci.

Il Test “Il Quesito con la Susi”

Ed eccoci al punto cruciale, ironicamente parlando, di questa riflessione. Se davvero vogliamo misurare l'intelligenza artificiale, forse dovremmo abbandonare il venerabile Test di Turing – troppo filosofico, troppo astratto, troppo facilmente aggirabile con trucchi conversazionali – e adottare qualcosa di nuovo, di più pragmatico, come “Il Quesito con la Susi”

Un rompicapo, non uno di quelli impossibili, ma uno di quelli che un essere umano mediamente sveglio potrebbe risolvere con una matita, un grande foglio di carta, un po’ di logica e una mezza mattina davanti al caffè della domenica. Il tipo di problema che richiede:

Comprensione accurata del testo
Identificazione dei vincoli
Ragionamento logico sequenziale
Capacità di visualizzazione spaziale o numerica
Un pizzico di creatività laterale

Da molti anni, un famoso Settimanale di Enigmistica in Italia propone di tanto in tanto un concorso a premi: “Il Quesito con la Susi”

Un rompicapo dei piu’ classici, impostato con un bel disegno dove bisogna interpretarne il senso, i vincoli descritti e trovare con logica o con pragmatico sviluppo di varie configurazioni la soluzione che rispetti quanto descritto.

Certo, ci puo’ essere “informazione topologica” in questi rompicapo, ma sapendolo si possono ricondurre gli aspetti topologici a dimensioni piu’ discrete con molta precisione attraverso prompt dettagliati, dialoghi al limiti dell’esasperazione, attenta e paziente cooperazione con il sistema, step by step.

Ecco l'esperimento: giornate intere su tutte le principali piattaforme AI cercando di far risolvere il semplice rompicapo del concorso n. 1013 della Settimana Enigmistica:

Semplice il quesito, certamente complicata la soluzione: 5 auto parcheggiate e 5 autiste davanti alle auto, nessuna davanti alla propria auto e la necessita di capire in relazione alle loro dichiarazioni quale fossero le 5 autiste e quale fossero le loro rispettive auto. Personaggi: La Susi, che ha bisogno di un passaggio, e che vuole sapere chi è Marta e qual è la sua auto. E poi Bianca, Franca, Giovanna, Laura ed appunto Marta, chi con la gonna, chi con i pantaloni e due auto con il portapacchi ben identificabili. Ognuna che esprime una affermazione (es. “Laura non è vicina a me ed io ho parcheggiato di fronte a Bianca”, e cosi via)

Risultato? Zero su tutta la linea. Ma la cosa più allarmante non era l'incapacità di trovare la soluzione – era l'incapacità di interpretare correttamente il problema stesso.

A partire dal fatto che Susi che poneva il rompicapo ovviamente non ne era parte, o che una persona che dichiarava dove potesse essere l’aiuto di Laura, non poteva essere lei stessa Laura, citando se’ stessa in terza persona.

Ho passato ore a dialogare con diverse piattaforme di AI per cercare di avere la soluzione, e anche per capire come le differenti piattaforme avrebbero affrontato il problema, ma la sorpresa piu’ grande è stata la totale incapacità di “capire” il rompicato, di identificare gli elementi del problema, di capire il senso dei vincoli descritti. Nonostante ripetute dettagliate e precise ridefinizioni, puntualizzazioni, chiarimenti, indicazioni precise.

La continua frustrante proposta di soluzioni “perfette” che puntualmente non rispettavano con estrema evidenza uno o piu vincoli, banali ed evidenti.

E ancora peggio vedere le soluzioni proposte in evidente contraddizione anche con le ipotesi fatte, non solo con i vincoli condivisi e con le molteplici spiegazioni e correzioni fatte nei dialoghi per definire correttamente con la massima precisione possibile le varie ipotesi.

“”Ecco la soluzione al problema” puntualmente sbagliata. “Scusa, hai ragione mi correggo subito”.

Centinaia di configurazioni corrette sempre presentate con determinazione, sicurezza e grande entusiasmo. E mentre il video della chat si andava riempiendo, sciorinando tabelle con dettagli puntuali, ecco il sistema stesso ad un certo punto accorgersi di aver prodotto una conflittualità in totale contraddizione con l’affermazione iniziale appena fatta di avere trovato la “soluzione corretta e precisa”. Ed ecco comparire l’esterrefatta considerazione: “ops sembra che ci sia una conflittualità che non ho rispettato, scusa”.

Ho raccolto piu’ di 300 pagine di chat con sequenze continue di dialoghi surreali carichi di frustrazioni e delusioni, e sto parlando di ChatGpt, di Claude, di DeepSeek, di Copilot (con Ggpt5), di Cerebras.Inference (per non farci mancare nulla).

Naturalmente ho provato ogni approccio possibile:

Prompt lunghissimi e dettagliati, spiegando come si racconterebbe il rompicapo a un bambino
Upload dell'immagine/scanner della pagina originale dalla rivista
Correzioni puntuali di ogni incomprensione nell'interpretazione
Scomposizione del problema in micro-step

La quantità di errori maldestri, quasi incredibili sarebbe lunghissima da elencare in un articolo, anche se è tutto documentato, tutto alla luce del sole.

Addirittura errori nel calcolare il numero delle possibili configurazioni da valutare con i vincoli o, peggio. confondere i nomi dei personaggi del rompicapo.

Persino il cambio di nome casuale e pure maschile “Mario” al posto di “Marta” in una fase concitata della chat, con la ridicola giustificazione del sistema una volta fatto notare l’errore “Hai ragione scusa, nella fretta ho fatto un errore di digitazione, succede”.