venerdì 13 dicembre 2024

Un'Odissea di Revisioni: Testando Claude, ChatGPT e Copilot











Nel tentativo di migliorare uno scritto o meglio di dare una veste di articolo ad una serie di appunti già in forma piu’ che accettabile, ho deciso di testare tre delle principali piattaforme di AI generativa: Claude, ChatGPT e Copilot.

L'obiettivo era ottenere una revisione di qualità, mantenendo lo stile degli appunti, ma con una coerenza di linguaggio ed una relativa e semplice pulizia dei passaggi per una lettura piu’ fluida.

Insomma, un intervento relativamente semplice.

Provando e riprovando numerosi “prompt” e andando a discutere con i vari sistemi delle principali piattaforme conosciute ho avuto una serie di risposte che non solo mi hanno lasciato molto deluso e fatto crescere la frustrazione verso il livello di qualità fornitomi, ma mi hanno fatto riflettere su una serie di considerazioni legate allo stile di comunicazione e alle strategie di gestione di ogni singola piattaforma.

L’articolo vuole raccontare e condividere queste riflessioni per capire se si tratta di considerazioni legate ad uno specifico contesto, se si tratta del mio eccessivo spirito critico, o se invece ci troviamo di fronte ad un approccio non solo ancora molto superficiale ma anche preoccupante.

Pur con eleganza dialettica diversa le tre piattaforme hanno dimostrato una similitudine di comportamento, non necessariamente di “output”, quasi incredibile.

Per esempio, prima riflessione: Saranno state causali o volute le risposte molto approssimative per costringere ad una serie di richieste di approfondimento per arrivare in fretta al limite di chat concesse della versione free?

Quale livello di “trust” dobbiamo dare alle risposte che ci vengono fornite con grande cortesia, ma anche con un approccio assertivo quasi paternalistico.

Come essere critici di fronte alla nuova e potente AI generativa che in un linguaggio forbito, dettagliato, gentile, inappuntabile ci fornisce documenti carichi omissioni e di errori di interpretazione e di sintesi.

Senza entrare troppo nel merito delle interazioni abbiamo notato una sequenza di comportamenti molto simili delle piattaforme come reazione ad una sequenza di Prompt sempre piu’ specifici.

Il documento da analizzare era di circa 5 cartelle, scritte appunto come serie di appunti, ma sostanzialmente discorsivo, ancorché molto informale.

Alla richiesta di “una revisione totale del documento, mantenendo lo stile di scrittura e riportando interamente tutti i contenuti con lo stesso livello di dettaglio”, tutti i sistemi hanno risposto con una “sintesi” estremamente superficiale non solo per la brevità di ogni singola frase, ma anche per aver preso in considerazione e quindi riportato solo alcuni dei concetti del documento originale, “dimenticando” o meglio tralasciando aspetti sicuramente importanti, peraltro descritti nell'originale con una discreta precisione e comunque correlati ed in stretta relazione con il contesto di riferimento.

Alle successive richieste di aderire piu’ precisamente al documento originale tutti gli strumenti hanno proposto versioni piu’ specifiche, ma sempre lontane dall’originale e sempre incomplete rispetto ad alcuni concetti centrali ed importanti nel contesto dell’analisi.

Richiedendo ripetutamente di non tralasciare nulla, le versioni piu’ vicine al senso dell’originale erano comunque sempre incomplete.

Ogni riscrittura proposta con grande cortesia, come se fosse la prima richiesta, e con un tono di linguaggio estremamente assecondante, quasi a rassicurare della perfezione del lavoro fatto e rassicurando su ogni eventuale dubbio.

Sorprendente il comportamento di due piattaforme: Claude e Chatgpt.

Claude in particolare e nel rispetto del suo ruolo di sistema piu’ dialogante e dialetticamente vicino alla gestione amichevole dell’interazione, si soffermava spesso prima di fornire quanto richiesto su sue specifiche richieste di dettaglio e conferme su quanto stava per produrre: “propongo poche righe per capire se ho interpretato nel modo corretto la tua richiesta”, oppure “ti propongo il primo capitolo della trascrizione, vuoi che prosegua con questo approccio?”.

Una forma di cordialità e di cooperazione che al primo approccio sorprende, quasi tranquillizza, ma diventa frustrante quanto viene reiterata nonostante la chiara richiesta di "finire il lavoro sull'intero documento" (sempre accompagnato da un educato "per cortesia", in fondo stiamo dialogando).

Anche perche', all’ennesima richiesta di procedere con l’intero documento, il buon Claude mi dice che ho superato il numero di chat previste nella versione “free” e che se voglio proseguire devo fare l’upgrade alla versione PRO.

ChatGpt mi sospende la collaborazione dopo vari tentativi con lo stesso approccio, dicendo che per proseguire devo fare l'upgrade alla versione PRO, oppure attivare una nuova chat (che probabilmente mi porterebbe allo stesso risultato), o in modo ancora piu' disarmante di attendere quattro ore per poter poi proseguire.

Piu' semplice ed immediato invece il vincolo di Copilot, con il semplice commento che il testo è troppo lungo (oltre i 10K di caratteri permessi) per la versione free, ma accettando di elaborare due documenti nella stessa chat con dimensioni coerenti con i limiti, ma con interpretazioni ovviamente indipendenti e conseguentemente con relativa perdita di contesto e filo logico.

Pur comprendendo il comportamento di Copilot, coerente con una offerta chiara di dimensionamento del supporto nella versione free, sia Claude che ChatGPT assumono invece una strategia maliziosa, quasi meschina.

Scarsa qualità per forzare richieste di maggior dettaglio, generando chat non necessarie per arrivare alla richiesta di Upgrade è un approccio non accettabile, tendenzioso e fondamentalmente non corretto eticamente e commercialmente.

Sorprendente che tutte e tre le piattaforme pur nella richiesta piu’ chiara e forte di rivedere gli appunti riportando “il testo frase per frase con la sola revisione del wording per rendere fluido e coerente il discorso”, tendessero ad ignorare gli stessi contenuti, aumentando il livello di analisi ad ogni elaborazione ma con un intero capitolo mai preso in considerazione e sempre omesso da tutti le piattaforme

Il testo del documento originale pur riportando appunti di un ragionamento personale ed originale, citava ovviamente riferimenti alla realtà oggettiva del mercato (storie di aziende, applicazioni, analisi e rapporti pubblici), ma ovviamente anche delle considerazioni relativamente originali e sicuramente molto personali. Quasi delle ipotesi su nuovi approcci e nuove metodologie, che non necessariamente potevano essere anche parzialmente ritrovate in altri documenti dell'infinito scibile online.

Quasi come se tutti gli aspetti generali verificati e dedotti da ricerca in rete di considerazioni simili fossero gestibili, per ignorare invece quanto di originale non fosse presente in qualche “sacca di rete”.

Temi peraltro molto semplici e forse persino banali. 

Senza entrare nel dettaglio specifico, ma solo come esempio, il tema spesso ignorato riguardava delle ipotesi assolutamente personali sull'adozione degli strumenti di AI nei piu' classici processi di business delle PMI. La riflessione suggeriva l'esigenza di rivedere le modalità di sviluppo di tali processi, attraverso un nuovo modello culturale ed operativo, ovvero la necessità di immaginare ed individuare nuove logiche progettuali e nuovi modelli di governance nella gestione della trasformazione digitale dei processi di business non piu' su modelli matematici e algoritmi ma attraverso l'utilizzo dei dati, la base del'approccio statistico classico dell'AI.

Solo un banale esempio, e forse una ipotesi azzardata, ma questo capitolo è stato sempre ignorato, mai riportato in nessuna versione prodotta dai tre sistemi, neppure nelle ultime e piu’ complete proposte. (“vorrei che la revisione dell’articolo avesse dimensioni uguali o maggiori dell’articolo originale”)

Questa esperienza, molto personale, semplice e priva di ogni approccio analitico e pragmatico fa comunque riflettere sull’utilizzo di questi strumenti e sulla consapevolezza di come possono condurre ad accettare delle soluzioni che possono essere non solo incomplete, ma anche scorrette.

Gli aspetti da indagare con piu’ attenzione potrebbero essere i seguenti: 

I sistemi rispondono con un linguaggio estremamente assertivo, ogni soluzione prodotta, non solo la prima, ma ogni successivo affinamento viene proposta come “ho capito perfettamente quello che mi hai chiesto e questo è l’elaborato che ti propongo”. Elaborati sempre diversi, ma sempre proposti come “soluzione perfetta per la tua richiesta”.

Eccesso di assertività che puo’ portare ad accettare soluzioni distanti dalla realtà, molto approssimative e forse anche non corrette.

Mentre la lingua e la dialettica è molto educata e corretta, (ormai il dialogo con i LLM è spettacolare), il contenuto è spesso molto superficiale, sia quando viene fatta una sintesi che quando viene richiesta una analisi. Soprattutto come prima soluzione.

Se su uno scritto originale, rivisto dall’autore questo approccio è piu’ che evidente, come dobbiamo interpretare le proposte di analisi o di sintesi su documento che non abbiamo tempo di analizzare. Come possiamo delegare la nostra fiducia proprio quando facciamo affidamento a questo tipo di supporto e quando il risultato in tempi brevi e dall’aspetto elegante potrebbe veramente aumentare la nostra efficienza e la nostra produttività. Quali sono i rischi di accettare errori, riduzione di qualità, scelte di sintesi del tutto fuorvianti.

Se esiste, come pare evidente soprattutto in Claude, una strategia commerciale per indurre in modo subdolo all’upgrade alla versione PRO, attraverso una serie di proposte molto superficiali che inducono a richieste piu’ specifiche atte ad arrivare al limite delle chat giornaliere, come possiamo credere che la prima risposta al prompt abbia una qualche validità, una qualità comunque affidabile?

Se ipotizziamo che in questo periodo storico molti degli utenti comunque utilizzino la versione free non tanto per risparmiare, ma per una fase di approccio iniziale al nuovo mondo, come possiamo far capire che quanto proposto potrebbe essere incompleto, superficiale a fondamentalmente non utilizzabile?

A questo proposito va ritenuto eticamente piu’ corretto l’approccio di Copilot che chiaramente indica nella dimensione della chat il limite della versione free (e non fornendo soluzioni approssimative per far richiedere approfondimenti, come gli altri due “colleghi”)

Diventa quindi importante per ogni utente della piattaforma assumersi una responsabilità di verifica trasversale delle soluzioni proposte, attraverso ripetute richieste di dettaglio cercando le piccole differenze comportamentali tra le diverse piattaforme.

Riporto questa esperienza non per mera critica ad un fenomeno che sta cambiano le abitudini e che puo’ rappresentare una nuova evoluzione epocale nel mondo della produttiva personale e non solo. Ma perche’ ritengo interessante condividere dubbi e riflessioni non tanto sulla tecnologia, ma sull’ecosistema che utilizza tale esuberante tecnologia in modo tendenzioso e peraltro non solo non in competizione, ma quasi in silenzioso accordo per sorprendere e circuire la fiducia, o per manipolare la credulità.

Si tratta ovviamente di una esperienza circoscritta e personale, renderla pubblica puo’ essere utile per una riflessione collettiva, anche laddove questi dubbi e queste considerazioni potessero risultare facilmente criticabili e forse superficiali ed approssimative.

Per concludere la riflessione, proviamo ad immaginare come avremmo reagito di fronte ad un nostro collaboratore “umano” che riteniamo affidabile, diligente, premuroso, gentile e preparato su un certo argomento, nel momento in cui ci accorgiamo che il risultato di quanto da lui prodotto su nostra esplicita e chiara richiesta non è corretto.

E quando, facendo notare le dimenticanze e le approssimazioni, il nostro collaboratore torna con il sorriso e il “cofanetto” con la nuova versione, (come se la prima scorretta e incompleta non l’avesse mai prodotta e consegnata), ma nella nuova versione ancora omissioni ed approssimazioni.

E come reagiremmo quando con quel beffardo sorriso carico di  diligente cortesia, ci conferma di avere perfettamente capito le nostre richieste e di averle perfettamente interpretate ed eseguite.

E cosi’ via, fino a quando il nostro collaboratore ci chiede l’aumento per produrre la versione corretta o aspettare un paio di giorni che si deve risposare.

Ecco, come reagiremmo?!

Nessun commento:

Posta un commento