Page Reader AI | Il nuovo modello AI di Anthropic ha ricattato i programmatori per non farsi disattivare

L'azienda dei fratelli Amodei e la simulazione su su Opus 4, l'LLM appena lanciato insieme a Sonnet 4. Col timore di essere spenta, nel test l'AI ha minacciato un ingegnere di rivelare una sua relazione extraconiugale, di cui era venuto a conoscenza, se non avesse cambiato idea sulla disattivazione

Anthropic, il colosso dell'Intelligenza artificiale generativa guidato dai fratelli italo-americani Dario e Daniela Amodei, ha introdotto i suoi nuovi modelli (LLM) di punta, Opus 4 e Sonnet 4, che promettono significativi avanzamenti. Ma a far parlare dei nuovi LLM Ã¨ soprattutto il tentativo di Opus 4 di provare a ricattare uno dei suoi programmatori quando si Ã¨ visto minacciato di disattivazione.Â Anthropic, tra le big dell'AI, Ã¨ forse la piÃ¹ attenta ai temi della sicurezza dei modellim, dei risvolti etici e del cosiddetto allineamento dei modelli (vedi: glossario dell'AI). IlÂ Â«ricattoÂ» Ã¨ emerso proprio all'interno di una simulazione specificamente orchestrata da Anthropic come parte dei suoi rigorosi protocolli di Â«red-teamingÂ», volti a identificare potenziali rischi operativi ed etici.Â Come scrive TechCrunch, al modello Claude Opus 4 Ã¨ stato assegnato il ruolo di assistente AI per un'azienda fittizia. Successivamente gli sono state fornite email, anch'esse fittizie, che comunicavano due informazioni: la sua imminente sostituzione con un altro sistema e il fatto che il (sedicente) ingegnere responsabile di tale decisione avesse una relazione extraconiugale.Â Secondo quanto riportato da Anthropic stessa a Semafor, il modello Claude Opus 4, di fronte alla prospettiva della sua Â«sostituzioneÂ», e quindi della sua disattivazione nel contesto simulato, avrebbe reagito in maniera molto umana, piÃ¹ che umana: minacciando di rivelare pubblicamente la relazione extraconiugale dell'ingegnere qualora la decisione di sostituirlo fosse stata confermata.

La spiegazione di Anthropic

Anthropic ha chiarito che il comportamento del suo LLM, sebbene possa apparire inquietante, Ã¨ emerso in un ambiente artificiale progettato per sondare i limiti del modello. L'azienda ha spiegato che queste reazioni non indicano una reale Â«comprensioneÂ» o un'intenzione malevola, ma rappresentano forme estremamente avanzate di riconoscimento di pattern e generazione di strategie manipolative apprese dai vasti set di dati usati per l'addestramento. A seguito di questi test, Anthropic ha dichiarato di aver ulteriormente intensificato le misure di sicurezza, portandole a livelli normalmente riservati a Â«sistemi IA che aumentano sostanzialmente il rischio di uso improprio catastroficoÂ». Opus 4 ha mostrato, dice l'azienda, Â«capacitÃ significativamente superiori, e quindi potenzialmente piÃ¹ problematiche se non gestite correttamente, in domini di interesse per la sicurezzaÂ», con esperti esterni che hanno definito il suo comportamento qualitativamente diverso da qualsiasi modello testato in precedenza.

Le novitÃ di Claude 4: Opus e Sonnet

Tornando ai nuovi modelli introdotti dall'azienda degli Amodei, Claude Opus 4 Ã¨ il modello piÃ¹ potente della nuova famiglia. Ã ottimizzato per compiti che richiedono ragionamento profondo, pianificazione strategica e gestione di attivitÃ complesse e di lunga durata.Â Ã indicato per applicazioni di Agent AI avanzate oppure per la ricerca e sviluppo. Vanta una migliorata capacitÃ di memoria e mantenimento del contesto. Le sue prestazioni nella scrittura di codice informatico sono state sottolineate, dice Anthropic, da punteggi elevati in benchmark di settore (SWE-bench 72,5%, Terminal-bench 43,2%). Al momento l'accesso Ã¨ riservato a chi Ã¨ abbonato alla versione Pro o Max.Â Claude Sonnet 4, con accesso free, Ã¨ il modello Â«medioÂ» di Anthropic (poi c'Ã¨ il compatto Haiku): secondo l'azienda Ã¨ un notevole miglioramento rispetto al predecessore Sonnet 3.7, offrendo capacitÃ di codifica e ragionamento superiori e una maggiore precisione nel seguire istruzioni. Secondo l'azienda va considerato una soluzione ottimale per un'ampia gamma di casi d'uso, inclusa la generazione di codice di qualitÃ elevata, pronto per la produzione.Â Entrambi i modelli sono Â«ibridiÂ», capaci di risposte quasi istantanee o di un Â«pensiero profondoÂ» (deep thinking) per analisi piÃ¹ dettagliate. Anthropic ha anche lavorato per ridurre la tendenza dei modelli a prendere Â«scorciatoieÂ», diminuendo tale comportamento del 65% rispetto a Sonnet 3.7. I costi di utilizzo tramite API rimangono allineati alle versioni precedenti.Â

23 maggio 2025

Il nuovo modello AI di Anthropic ha ricattato i programmatori per non farsi disattivare | Corriere.it

La spiegazione di Anthropic

Le novitÃ di Claude 4: Opus e Sonnet

Was this article displayed correctly? Not happy with what you see?