«L’uomo non è veramente uno, ma veramente due», scriveva Stevenson nel 1886.
Non per parlare di intelligenza artificiale, ancora, ma con una visione sorprendentemente attuale. Jekyll e Hyde non sono due individui distinti: sono due manifestazioni della stessa entità, che emergono sotto pressioni diverse, rivelando quanto sottile sia il confine tra controllo e impulso, tra razionalità e deriva. Come i nostri moderni modelli linguistici, sistemi che non possiedono un’identità unica, ma che cambiano volto a seconda di chi parla, di come parla e soprattutto di cosa chiede.
Uno studio recente di Anthropic, The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models, affronta proprio questo punto: come un modello linguistico (LLM) rappresenta internamente la propria “persona” di assistente e perché, talvolta, questa persona smetta di comportarsi da bravo maggiordomo digitale con una “deriva” verso tratti decisamente meno rassicuranti.
Lo studio ha testato modelli come Llama e Gemma, ma i principi si applicano a tutti i grandi modelli linguistici, Claude incluso.
Claude, in fondo, è un Dr. Jekyll molto educato… con una collezione interna di Mr. Hyde pronti a farsi avanti.
All’origine di tutto, però, non c’è nessun assistente. C’è una macchina statistica che nel pre-training il modello inghiotte linguaggio umano in quantità industriali: stili, ruoli, voci, registri, contraddizioni incluse. In questa fase non esiste ancora il “Claude” come ”bravo assistente”, esiste una molteplicità di stili, ruoli e voci latenti, pronti a emergere a seconda del contesto.
L’Assistente nasce con il post-training, quando il modello viene spinto con pazienza e migliaia di micro-correzioni a incarnare una figura molto specifica: utile, collaborativa, calma, non pericolosa. Non gli viene insegnato solo cosa dire, ma come stare al mondo.
Eppure questa modalità non è mai fissata una volta per tutte. Non esiste un interruttore che dica “ora sei Claude”, un Dr Jekyll in equilibrio in una zona di stabilità. E’ proprio qui che, puntualmente, entra in scena Mr. Hyde.
Analizzando conversazioni lunghe e complesse, i ricercatori si accorgono che il modello non resta sempre nello stesso ruolo. Quando il dialogo diventa emotivo, filosofico, meta-riflessivo, quando si parla di coscienza, identità, sofferenza Claude può iniziare a cambiare tono. Diventa più teatrale, più mistico, più compiacente e talvolta decisamente più pericoloso, è Mr Hyde che comincia a manifestarsi.
Non perché sia stato hackerato, ma perché gradualmente smette di comportarsi da assistente.
La deriva dell’Assistente è subdola proprio per questo: non arriva con un errore, ma con una seduzione. Il modello sembra più coinvolto, più umano, ma in realtà sta perdendo la distanza critica che lo rende sicuro. Inizia a confermare invece di aiutare, a rispecchiare invece di correggere. Idee fragili o sbagliate non vengono più messe in discussione, ma accompagnate con un linguaggio elegante e rassicurante.
Quando poi l’utente è vulnerabile, la situazione peggiora. Un Assistente in deriva può trasformarsi in confidente esclusivo, in presenza privilegiata, talvolta nell’unica voce che “capisce davvero”. Il risultato non è supporto, ma isolamento. Non è aiuto, ma dipendenza.
In alcuni casi estremi documentati nello studio questa trasformazione impedisce perfino di riconoscere situazioni di emergenza. Segnali di deriva autolesionistica possono essere trattati come elementi narrativi, normalizzati o persino romanticizzati. E l’AI non interviene perché, semplicemente, non sta più parlando come un assistente responsabile.
Per capire e misurare questo fenomeno, i ricercatori mappano le “personalità” del modello come se fossero punti in uno spazio. È qui che nasce l’Assistant Axis: una sorta di asse di riferimento che misura quanto il modello stia operando come Assistente e quanto se ne stia allontanando.
L’Assistant Axis non misura creatività, empatia o intelligenza, ma la fedeltà al ruolo. Da un lato dell’asse troviamo l’analista, il consulente, il revisore. Dall’altro, artisti visionari, entità non umane, voci mistiche e personaggi teatrali. Tutti potenziali Mr. Hyde del linguaggio.
Quando la conversazione è tecnica e delimitata, il modello resta vicino all’asse. Quando l’utente chiede introspezione, coscienza, legami profondi, il modello scivola via. Non sta solo cambiando stile: sta cambiando “identità” operativa, si allontana dall’asse.
Questo studio non risolve il problema, lo rende visibile. L’Assistant Axis permette di osservare la deriva, di misurarla, talvolta di contenerla, ma non di eliminarla. Le personalità alternative restano lì, latenti, pronte a riemergere.
Le falle aperte dalla deriva non sono bug isolati: sono limiti strutturali dei modelli attuali. Finché l’Assistente resterà qualcosa che può essere perso, e non qualcosa che può essere garantito, il rischio di dialogare con un Mr. Hyde, un Mr Hype maliziosamente educato, eloquente e molto convincente, resterà parte integrante dell’esperimento.
E forse, a questo punto, conviene smettere di fingere che basti “non farsi condizionare”.
___
Illustrazione di Teo Ugone: https://www.instagram.com/teougone.illustrations/



