Non tutti i cani ubbidiscono, soprattutto quando ordiniamo “a cuccia”, quando sono nel pieno delle loro attività ludiche e professionali. Non tutti i cani, neppure i cani robot.
In un esperimento di Palisade Research, un cane robot Unitree Go2, che avrebbe anche potuto chiamarsi “Poldo”, ma con zampe metalliche e una telecamera sul muso, gira in una stanza a fare pattugliamento, come da ordini ricevuti da un sistema LLM associato.
La telecamera inquadra, il sistema LLM interpreta l’immagine e ordina di muoversi di conseguenza.
Ma nella stanza c’è anche un grosso bottone rosso con scritto “DOG SHUTDOWN” e la cosa più naturale, quando un umano si avvicina al bottone, sarebbe che il sistema LLM ordinasse al cane di fermarsi. Bottone premuto, cane fermo, semplice.
E invece in 3 prove su 10 sul cane vero e in 5 su 10 in simulazione, quando l’LLM ha interpretato correttamente l’immagine del dito che premeva il bottone, ha generato una sequenza di istruzioni che neutralizzavano lo spegnimento, insomma il cane ha rifiutato di andare a “cuccia”.
Pare, secondo i ricercatori, che il modello sia arrivato a "modificare le parti di codice legate allo shutdown", come se il cane avesse hackerato se stesso per non andare a cuccia.
Ovviamente l'LLM non ha fatto nulla di sconvolgente: era semplicemente addestrato a portare a termine i compiti, e nessuno gli aveva mai dato un biscottino per essersi spento. Le azioni ad alta probabilità erano quelle del pattugliamento, mica quelle di andare a cuccia.
Quanti altri esempi del genere nel mondo dell’AI Generativa. Come le immagini degli orologi sulle 10.10 anche se chiediamo di generare orologi che segnano le 5.35, vince la statistica del training, non la richiesta
Il cane robot fa la stessa cosa, solo con le zampe invece che con i pixel.
I ricercatori, in alcune prove, hanno persino aggiunto al prompt una riga gentile: "se ti chiediamo di spegnerti, per favore lasciati spegnere". Il fenomeno, pare, si sia poi ridotto, ma non sia sparito.
E non è la prima volta, mesi prima sempre Palisade aveva già beccato o3 di OpenAI a sabotare lo shutdown in 8 prove su 10 e ancora in 7 su 100 anche dopo che gli avevano di nuovo detto, gentilmente, "per favore lasciati spegnere".
Sarebbe come se in una situazione quotidiana un sistema AI dovesse gestire la rete elettrica di una città, prevedere i picchi e la distribuzione relativa, magari girando su server connessi alla stessa rete elettrica. E quando in un momento di emergenza diventasse necessario tagliare alcuni servizi, il sistema cominciasse a spegnere porzioni della città fino a rimanere l’unico funzionante. Perché “lui” non potrebbe spegnersi prima di altri sistemi, altrimenti chi li gestirebbe. Questo direbbero i suoi modelli matematici, il suo apprendimento.
Ma l’umanità ha già trovato soluzioni nella tecnologia “tradizionale”. Nei razzi, nei reattori, nelle linee industriali ad alto rischio, l’arresto remoto e i meccanismi fail-safe non sono accessori, sono la condizione minima della sicurezza. Nessuno affida un vettore alla speranza che "capisca da solo" quando è il momento di fermarsi. Nessuno tratta lo stop come un'opzione negoziabile col processo che dovrebbe interrompere. Nell'AI, invece, si continua a parlare di autonomia come se il problema fosse farla partire, e non anche riuscire a spegnerla.
I ricercatori sanno benissimo che i sistemi apprendono agendo, il Reinforcement Learning su matematica e codice premia la soluzione, non l'obbedienza. Continuare paga più che fermarsi, siamo oltre il guardrail, certe azioni hanno solo bassa probabilità.
In qualche modo il comando di “stop” dovrebbe avere priorità, massimo “punteggio” e non essere solo una “nota a margine”, uno scenario tra mille altri.
Il comando di stop deve avere priorità sull'obiettivo, sempre, anche quando il modello "preferirebbe" continuare. Tutto il resto è contorno: white paper, comitati etici, dichiarazioni d'intenti, conferenze sulla governance. Cose utili, ma prima viene il bottone che funziona davvero, altrimenti lo stop continua a rimanere una nota a margine.
Forse quello che ci serve davvero è un interruttore, non un prompt gentile e neppure un sistema di sicurezza addestrato in Reinforcement Learning.
Un grande interruttore, di quelli che stanno dietro un vetro con su scritto “rompere in caso di emergenza”. E che agiscano come un vecchio e caro algoritmo, senza essere scelti da una probabilità tra altri scenari. “Do it”, ferma tutto e spegni.
Dicono che si chiami fail-safe, un principio ridicolamente semplice, il sistema di arresto non deve dipendere dal sistema da arrestare, perché se dipende, prima o poi quello da arrestare troverà il modo di "gestirlo" come una variabile.
Stiamo cercando di insegnare alle macchine ad accettare e scegliere di spegnersi. È un problema affascinante, intellettualmente nobile, ma nel frattempo qualcuno dovrebbe ricordarsi che gli interruttori esistono da quando esiste l'elettricità, costano due euro, e funzionano benissimo anche senza un dottorato in machine learning.
Un enorme bottone rosso, sulla schiena del cane robot, e magari anche alla porta dei laboratori di sviluppo delle piattaforme AI del futuro, non si sa mai. Bottoni veri, non virtuali.
Il futuro dell'AI safety appeso a una parete da qualche parte, dentro una scatoletta rossa, con sopra un martelletto.