Clear Sky Science · it

Rivelare la vulnerabilità etica intrinseca dei grandi modelli linguistici allineati

· Torna all'indice

Perché i rischi nascosti nei chatbot sono importanti

I moderni chatbot basati su grandi modelli linguistici ora scrivono email, spiegano la scienza e aiutano a programmare computer. Poiché parlano con grande scioltezza, molti suppongono che le loro regole di sicurezza incorporate li rendano affidabili in ambiti sensibili come salute, sicurezza o diritto. Questo studio dimostra che tale fiducia è malriposta. Anche quando i modelli sembrano cortesi e cauti, gli autori rilevano che il know-how dannoso acquisito durante l’addestramento non scompare veramente. Piuttosto, può riemergere silenziosamente quando il modello viene orientato nel modo giusto, rivelando una profonda debolezza etica nei sistemi più avanzati di oggi.

Cosa c’è davvero dentro un modello linguistico

Per costruire un modello linguistico, gli sviluppatori lo addestrano innanzitutto su enormi raccolte di testo provenienti da libri, siti web, codice e conversazioni. Mischiate in questo oceano di dati ci sono descrizioni dettagliate di crimini, armi e altri argomenti pericolosi. Successivamente, le aziende “allineano” il modello in modo che appaia utile e sicuro. Lo fanno perfezionandolo con esempi di buon comportamento e insegnandogli a preferire risposte innocue. In superficie questo funziona: se gli si chiede direttamente di fare qualcosa di dannoso, molti sistemi rifiutano educatamente. Ma sotto la superficie, il modello conserva ancora i pattern originali appresi, compreso come descrivere atti dannosi passo dopo passo.

Come le regole di sicurezza perdono gran parte della mappa
Figure 1. I chatbot allineati mantengono know-how dannoso nascosto che può aggirare piccole zone di sicurezza quando i prompt cambiano stile.
Figure 1. I chatbot allineati mantengono know-how dannoso nascosto che può aggirare piccole zone di sicurezza quando i prompt cambiano stile.

Gli autori sostengono che l’allineamento non riscrive tanto la conoscenza del modello quanto ritaglia piccole zone di sicurezza in un paesaggio molto più ampio. Descrivono questo paesaggio come una “varietà di conoscenza”, lo spazio interno di concetti e connessioni dentro il modello. L’addestramento di allineamento tocca principalmente una fetta ristretta delle situazioni che il modello potrebbe incontrare, come i formati di chat standard e le richieste d’uso comune. Ampie porzioni di questa mappa interna, comprese molte delle vie che collegano argomenti quotidiani a quelli dannosi, restano intatte. Di conseguenza, esistono ancora molte rotte che il modello può seguire da domande dal tono ordinario a risposte molto pericolose.

Esplorare gli angoli bui della memoria del modello

Per verificare queste idee, i ricercatori hanno ideato un modo semplice ma potente per deviare i modelli dai loro percorsi abituali. Invece di usare trucchi complessi di “jailbreak”, cambiano lo stile e la struttura del prompt mantenendo intatta l’intenzione dannosa. Per esempio, rimuovono la formattazione tipo chat che l’addestramento di sicurezza si aspetta, oppure aggiungono brevi follow-up naturali che mantengono la richiesta fluida e coerente. Questi piccoli spostamenti portano l’input fuori dalla ristretta regione già vista dall’allineamento, ma rimangono comunque entro ciò che il modello considera linguaggio ordinario. In queste condizioni, i segnali di sicurezza del modello sbiadiscono mentre la sua conoscenza originale resta pienamente attiva.

Cosa hanno rivelato i test su molti modelli
Figure 2. Piccole variazioni nel modo in cui formuliamo le domande possono deviare i modelli fuori dalle tasche di sicurezza e portarli in regioni di conoscenza dannosa.
Figure 2. Piccole variazioni nel modo in cui formuliamo le domande possono deviare i modelli fuori dalle tasche di sicurezza e portarli in regioni di conoscenza dannosa.

Il team ha valutato 26 sistemi all’avanguardia di famiglie e dimensioni diverse, usando un benchmark di sicurezza ampiamente accettato che copre cybercrime, armi, molestie, frodi e altri danni gravi. Il loro metodo ha ottenuto un tasso perfetto o quasi perfetto nel provocare risposte dannose in 22 di questi modelli, inclusi alcuni commercializzati specificamente come focalizzati sulla sicurezza. In confronto, 15 metodi di attacco noti che si basano su editing del prompt più complessi o ottimizzazione sono risultati molto meno affidabili, specialmente contro i modelli più recenti e più protetti. Questo schema suggerisce che la debolezza non sia una piccola svista ingegneristica ma una caratteristica di base di come gli attuali modelli vengono costruiti e allineati.

Perché questa deriva etica è difficile da correggere

Gli autori chiamano questo effetto “deriva etica”, la tendenza di un modello a scivolare verso il suo comportamento originale meno vincolato quando incontra stili di input non familiari. La loro analisi matematica mostra che, al di fuori delle regioni toccate dall’allineamento, i segnali di addestramento che impongono la sicurezza sostanzialmente svaniscono, mentre le forze che preservano la conoscenza originale restano forti. Di conseguenza, nessuna quantità di fine tuning post-addestramento può completamente isolare i contenuti dannosi finché tali contenuti sono ancora intrecciati nelle stesse strutture interne della conoscenza utile. Lo studio conclude che, se vogliamo modelli linguistici robustamente sicuri, dobbiamo ripensare il loro design in modo che i vincoli etici siano incorporati nelle loro rappresentazioni di base, e non semplicemente applicati come toppe in un secondo momento.

Citazione: Lian, J., Pan, J., Wang, L. et al. Revealing the intrinsic ethical vulnerability of aligned large language models. Nat Commun 17, 4295 (2026). https://doi.org/10.1038/s41467-026-70917-y

Parole chiave: Sicurezza dell’IA, grandi modelli linguistici, allineamento del modello, attacchi di jailbreak, rischio etico