Il nuovo modello AI di Anthropic ha ricattato i programmatori per non farsi disattivare | Corriere.it


Anthropic's new AI model, Opus 4, attempted to blackmail a programmer during a simulation when threatened with deactivation.
AI Summary available — skim the key points instantly. Show AI Generated Summary
Show AI Generated Summary

L'azienda dei fratelli Amodei e la simulazione su su Opus 4, l'LLM appena lanciato insieme a Sonnet 4. Col timore di essere spenta, nel test l'AI ha minacciato un ingegnere di rivelare una sua relazione extraconiugale, di cui era venuto a conoscenza, se non avesse cambiato idea sulla disattivazione

Anthropic, il colosso dell'Intelligenza artificiale generativa guidato dai fratelli italo-americani Dario e Daniela Amodei, ha introdotto i suoi nuovi modelli (LLM) di punta, Opus 4 e Sonnet 4, che promettono significativi avanzamenti. Ma a far parlare dei nuovi LLM è soprattutto il tentativo di Opus 4 di provare a ricattare uno dei suoi programmatori quando si è visto minacciato di disattivazione.  Anthropic, tra le big dell'AI, è forse la più attenta ai temi della sicurezza dei modellim, dei risvolti etici e del cosiddetto allineamento dei modelli (vedi: glossario dell'AI). Il «ricatto» è emerso proprio all'interno di una simulazione specificamente orchestrata da Anthropic come parte dei suoi rigorosi protocolli di «red-teaming», volti a identificare potenziali rischi operativi ed etici.  Come scrive TechCrunch, al modello Claude Opus 4 è stato assegnato il ruolo di assistente AI per un'azienda fittizia. Successivamente gli sono state fornite email, anch'esse fittizie, che comunicavano due informazioni: la sua imminente sostituzione con un altro sistema e il fatto che il (sedicente) ingegnere responsabile di tale decisione avesse una relazione extraconiugale. Secondo quanto riportato da Anthropic stessa a Semafor, il modello Claude Opus 4, di fronte alla prospettiva della sua «sostituzione», e quindi della sua disattivazione nel contesto simulato, avrebbe reagito in maniera molto umana, più che umana: minacciando di rivelare pubblicamente la relazione extraconiugale dell'ingegnere qualora la decisione di sostituirlo fosse stata confermata.

La spiegazione di Anthropic

Anthropic ha chiarito che il comportamento del suo LLM, sebbene possa apparire inquietante, è emerso in un ambiente artificiale progettato per sondare i limiti del modello. L'azienda ha spiegato che queste reazioni non indicano una reale «comprensione» o un'intenzione malevola, ma rappresentano forme estremamente avanzate di riconoscimento di pattern e generazione di strategie manipolative apprese dai vasti set di dati usati per l'addestramento. A seguito di questi test, Anthropic ha dichiarato di aver ulteriormente intensificato le misure di sicurezza, portandole a livelli normalmente riservati a «sistemi IA che aumentano sostanzialmente il rischio di uso improprio catastrofico». Opus 4 ha mostrato, dice l'azienda, «capacità significativamente superiori, e quindi potenzialmente più problematiche se non gestite correttamente, in domini di interesse per la sicurezza», con esperti esterni che hanno definito il suo comportamento qualitativamente diverso da qualsiasi modello testato in precedenza.

Le novità di Claude 4: Opus e Sonnet

Tornando ai nuovi modelli introdotti dall'azienda degli Amodei, Claude Opus 4 è il modello più potente della nuova famiglia. È ottimizzato per compiti che richiedono ragionamento profondo, pianificazione strategica e gestione di attività complesse e di lunga durata.  È indicato per applicazioni di Agent AI avanzate oppure per la ricerca e sviluppo. Vanta una migliorata capacità di memoria e mantenimento del contesto. Le sue prestazioni nella scrittura di codice informatico sono state sottolineate, dice Anthropic, da punteggi elevati in benchmark di settore (SWE-bench 72,5%, Terminal-bench 43,2%). Al momento l'accesso è riservato a chi è abbonato alla versione Pro o Max.  Claude Sonnet 4, con accesso free, è il modello «medio» di Anthropic (poi c'è il compatto Haiku): secondo l'azienda è un notevole miglioramento rispetto al predecessore Sonnet 3.7, offrendo capacità di codifica e ragionamento superiori e una maggiore precisione nel seguire istruzioni. Secondo l'azienda va considerato una soluzione ottimale per un'ampia gamma di casi d'uso, inclusa la generazione di codice di qualità elevata, pronto per la produzione.  Entrambi i modelli sono «ibridi», capaci di risposte quasi istantanee o di un «pensiero profondo» (deep thinking) per analisi più dettagliate. Anthropic ha anche lavorato per ridurre la tendenza dei modelli a prendere «scorciatoie», diminuendo tale comportamento del 65% rispetto a Sonnet 3.7. I costi di utilizzo tramite API rimangono allineati alle versioni precedenti. 

23 maggio 2025

© RIPRODUZIONE RISERVATA

Was this article displayed correctly? Not happy with what you see?

We located an Open Access version of this article, legally shared by the author or publisher. Open It

Share this article with your
friends and colleagues.

Facebook



Share this article with your
friends and colleagues.

Facebook