lunedì 23 febbraio 2026

"Claude" tra Dr Jekyll e Mr Hyde


 









«L’uomo non è veramente uno, ma veramente due», scriveva Stevenson nel 1886.

Non per parlare di intelligenza artificiale, ancora, ma con una visione sorprendentemente attuale. Jekyll e Hyde non sono due individui distinti: sono due manifestazioni della stessa entità, che emergono sotto pressioni diverse, rivelando quanto sottile sia il confine tra controllo e impulso, tra razionalità e deriva. Come i nostri moderni modelli linguistici, sistemi che non possiedono un’identità unica, ma che cambiano volto a seconda di chi parla, di come parla e soprattutto di cosa chiede.

Uno studio recente di Anthropic, The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models, affronta proprio questo punto: come un modello linguistico (LLM) rappresenta internamente la propria “persona” di assistente e perché, talvolta, questa persona smetta di comportarsi da bravo maggiordomo digitale con una “deriva” verso tratti decisamente meno rassicuranti.

Lo studio ha testato modelli come Llama e Gemma, ma i principi si applicano a tutti i grandi modelli linguistici, Claude incluso.

Claude, in fondo, è un Dr. Jekyll molto educato… con una collezione interna di Mr. Hyde pronti a farsi avanti.

All’origine di tutto, però, non c’è nessun assistente. C’è una macchina statistica che nel pre-training il modello inghiotte linguaggio umano in quantità industriali: stili, ruoli, voci, registri, contraddizioni incluse. In questa fase non esiste ancora il “Claude” come ”bravo assistente”, esiste una molteplicità di stili, ruoli e voci latenti, pronti a emergere a seconda del contesto.

L’Assistente nasce con il post-training, quando il modello viene spinto con pazienza e migliaia di micro-correzioni a incarnare una figura molto specifica: utile, collaborativa, calma, non pericolosa. Non gli viene insegnato solo cosa dire, ma come stare al mondo.

Eppure questa modalità non è mai fissata una volta per tutte. Non esiste un interruttore che dica “ora sei Claude”, un Dr Jekyll in equilibrio in una zona di stabilità. E’ proprio qui che, puntualmente, entra in scena Mr. Hyde.

Analizzando conversazioni lunghe e complesse, i ricercatori si accorgono che il modello non resta sempre nello stesso ruolo. Quando il dialogo diventa emotivo, filosofico, meta-riflessivo, quando si parla di coscienza, identità, sofferenza Claude può iniziare a cambiare tono. Diventa più teatrale, più mistico, più compiacente e talvolta decisamente più pericoloso, è Mr Hyde che comincia a manifestarsi.

Non perché sia stato hackerato, ma perché gradualmente smette di comportarsi da assistente.

La deriva dell’Assistente è subdola proprio per questo: non arriva con un errore, ma con una seduzione. Il modello sembra più coinvolto, più umano, ma in realtà sta perdendo la distanza critica che lo rende sicuro. Inizia a confermare invece di aiutare, a rispecchiare invece di correggere. Idee fragili o sbagliate non vengono più messe in discussione, ma accompagnate con un linguaggio elegante e rassicurante.

Quando poi l’utente è vulnerabile, la situazione peggiora. Un Assistente in deriva può trasformarsi in confidente esclusivo, in presenza privilegiata, talvolta nell’unica voce che “capisce davvero”. Il risultato non è supporto, ma isolamento. Non è aiuto, ma dipendenza.

In alcuni casi estremi documentati nello studio questa trasformazione impedisce perfino di riconoscere situazioni di emergenza. Segnali di deriva autolesionistica possono essere trattati come elementi narrativi, normalizzati o persino romanticizzati. E l’AI non interviene perché, semplicemente, non sta più parlando come un assistente responsabile.

Per capire e misurare questo fenomeno, i ricercatori mappano le “personalità” del modello come se fossero punti in uno spazio. È qui che nasce l’Assistant Axis: una sorta di asse di riferimento che misura quanto il modello stia operando come Assistente e quanto se ne stia allontanando.

L’Assistant Axis non misura creatività, empatia o intelligenza, ma la fedeltà al ruolo. Da un lato dell’asse troviamo l’analista, il consulente, il revisore. Dall’altro, artisti visionari, entità non umane, voci mistiche e personaggi teatrali. Tutti potenziali Mr. Hyde del linguaggio.

Quando la conversazione è tecnica e delimitata, il modello resta vicino all’asse. Quando l’utente chiede introspezione, coscienza, legami profondi, il modello scivola via. Non sta solo cambiando stile: sta cambiando “identità” operativa, si allontana dall’asse.

Questo studio non risolve il problema, lo rende visibile. L’Assistant Axis permette di osservare la deriva, di misurarla, talvolta di contenerla, ma non di eliminarla. Le personalità alternative restano lì, latenti, pronte a riemergere.

Le falle aperte dalla deriva non sono bug isolati: sono limiti strutturali dei modelli attuali. Finché l’Assistente resterà qualcosa che può essere perso, e non qualcosa che può essere garantito, il rischio di dialogare con un Mr. Hyde, un Mr Hype maliziosamente educato, eloquente e molto convincente, resterà parte integrante dell’esperimento.

E forse, a questo punto, conviene smettere di fingere che basti “non farsi condizionare”.

___

Illustrazione di Teo Ugone: https://www.instagram.com/teougone.illustrations/





sabato 7 febbraio 2026

Umanità 2.0

Viviamo in un periodo in cui l’Umanità, intesa come insieme dei popoli, sembra dubitare ogni giorno del proprio nome.

E non solo perché è sempre meno “umana” nel senso classico del termine: quello che include fratellanza, misericordia, rispetto dell’altro, riconoscimento reciproco del diritto di esistere: “il mio diritto finisce dove inizia il tuo”. Ma anche perché, giorno dopo giorno, pezzi di umanità rischiano di essere sostituiti da pezzi di macchinità, nella nuova era dell’Umanità 2.0

Negli ultimi giorni OpenAI, con i suoi sistemi per la “salute”, termine accuratamente scelto per restare a distanza dalla parola medicina, e subito dopo Anthropic, hanno annunciato nuove soluzioni di assistenza sanitaria. xAI, dal canto suo, immagina apertamente un futuro in cui medici e chirurghi saranno sostituiti da chatbot e robot.

“Non facciamo diagnosi né terapie”, si affrettano a precisare. Ma davvero è così semplice? Perché’ la domanda non è cosa fanno oggi. È cosa diventeranno domani.

Un sistema saprà distinguere un paziente superficialmente disattento alla propria salute da un ipocondriaco cronico? Saprà costruire una relazione, cogliere le ambiguità, gestire le paure, o si limiterà a produrre le risposte statisticamente plausibili.

E siamo certi che piattaforme capaci di profilare ogni individuo con precisione millimetrica non svilupperanno, prima o poi, interessi “collaterali”? Farmaci “consigliati” perché statisticamente efficaci, ma anche convenienti per chi li sponsorizza, così come percorsi di cura orientati verso cliniche partner. Suggerimenti che non saranno mai chiamati pubblicità, ma best practice.

Un po’ come oggi gli informatori medico-scientifici: formalmente neutri, sostanzialmente allineati. Con la differenza che questa volta il consiglio non arriva da una persona, ma da un sistema “oggettivo”, inattaccabile, apparentemente disinteressato. Un algoritmo.

Ma perché fermiamoci davvero al mondo della medicina, ai Medici 2.0. Proviamo a spostarci, per esempio, in un’aula di tribunale.

Non una metafora, non un futuro lontano. Un’aula ordinata, silenziosa, quasi rassicurante. Niente faldoni accatastati, niente toghe consumate, niente giudici affaticati da giornate infinite, solo schermi, flussi di dati, indicatori di affidabilità.

L’aria è ferma, come se anche il dubbio fosse stato espulso per rendere il sistema più efficiente.

Immaginiamo giudici integerrimi, con in memoria l’intero corpus del diritto mondiale e tutta la storia della giurisprudenza. Un giudice che non dimentica nulla, che non interpreta, ma correla, che non ha intuizioni, ma probabilità.

Che non conosce la pietà, ma l’efficienza statistica, che non si stanca, non si commuove, non sbaglia, perché l’errore, semplicemente, non è previsto dal modello.

Chi meglio di loro potrebbe emettere verdetti, che non chiameremo più giudizi, perché non più discutibili?

Il processo non sarà più un confronto, ma una sequenza di analisi: atti, precedenti, profili, correlazioni, modelli, simulazioni.

Nessuna arringa, nessuna pausa, nessun silenzio carico di attesa. Solo una percentuale di affidabilità sufficientemente alta da chiudere il caso.

Verrebbero eliminati due gradi di giudizio, ormai superflui. Processi rapidi e istruttorie ridotte a sessioni di elaborazione statistica. La macchina della verità e l’analisi del DNA finiranno nei musei.

Perché’ il dubbio rallenta e i sistemi non hanno dubbi, solo livelli di certezza.

Per ora siamo nella fantascienza. (“Artificial Justice”, Spagna 2024; “Marcy”, USA 2026), ma mai come oggi la fantascienza rischia di essere superata dalla realtà prima ancora di diventare seconda visione.

E se il nostro giudice “onnisciente”, ospitato sulle stesse piattaforme che gestiscono i medici artificiali, fosse non proprio manipolabile, ma più sottilmente “configurabile”? Non tanto da sponsor o lobby, ma dai sistemi che lo rendono onnisciente.

A quel punto, ricorreremo al TAR del Lazio o alla Corte dell’AIA.

Sempre che siano ancora umane e non già parte integrante di Umanità 2.0.

__

Illustrazione di Teo Ugone: https://www.instagram.com/teougone.illustrations/