L'azienda dei fratelli Amodei e la simulazione su su Opus 4, l'LLM appena lanciato insieme a Sonnet 4. Col timore di essere spenta, nel test l'AI ha minacciato un ingegnere di rivelare una sua relazione extraconiugale, di cui era venuto a conoscenza, se non avesse cambiato idea sulla disattivazione
Anthropic, il colosso dell'Intelligenza artificiale generativa guidato dai fratelli italo-americani Dario e Daniela Amodei, ha introdotto i suoi nuovi modelli (LLM) di punta, Opus 4 e Sonnet 4, che promettono significativi avanzamenti. Ma a far parlare dei nuovi LLM è soprattutto il tentativo di Opus 4 di provare a ricattare uno dei suoi programmatori quando si è visto minacciato di disattivazione. Anthropic, tra le big dell'AI, è forse la più attenta ai temi della sicurezza dei modellim, dei risvolti etici e del cosiddetto allineamento dei modelli (vedi: glossario dell'AI). Il «ricatto» è emerso proprio all'interno di una simulazione specificamente orchestrata da Anthropic come parte dei suoi rigorosi protocolli di «red-teaming», volti a identificare potenziali rischi operativi ed etici. Come scrive TechCrunch, al modello Claude Opus 4 è stato assegnato il ruolo di assistente AI per un'azienda fittizia. Successivamente gli sono state fornite email, anch'esse fittizie, che comunicavano due informazioni: la sua imminente sostituzione con un altro sistema e il fatto che il (sedicente) ingegnere responsabile di tale decisione avesse una relazione extraconiugale. Secondo quanto riportato da Anthropic stessa a Semafor, il modello Claude Opus 4, di fronte alla prospettiva della sua «sostituzione», e quindi della sua disattivazione nel contesto simulato, avrebbe reagito in maniera molto umana, più che umana: minacciando di rivelare pubblicamente la relazione extraconiugale dell'ingegnere qualora la decisione di sostituirlo fosse stata confermata.
La spiegazione di Anthropic
Anthropic ha chiarito che il comportamento del suo LLM, sebbene possa apparire inquietante, è emerso in un ambiente artificiale progettato per sondare i limiti del modello. L'azienda ha spiegato che queste reazioni non indicano una reale «comprensione» o un'intenzione malevola, ma rappresentano forme estremamente avanzate di riconoscimento di pattern e generazione di strategie manipolative apprese dai vasti set di dati usati per l'addestramento. A seguito di questi test, Anthropic ha dichiarato di aver ulteriormente intensificato le misure di sicurezza, portandole a livelli normalmente riservati a «sistemi IA che aumentano sostanzialmente il rischio di uso improprio catastrofico». Opus 4 ha mostrato, dice l'azienda, «capacità significativamente superiori, e quindi potenzialmente più problematiche se non gestite correttamente, in domini di interesse per la sicurezza», con esperti esterni che hanno definito il suo comportamento qualitativamente diverso da qualsiasi modello testato in precedenza.
Le novità di Claude 4: Opus e Sonnet
Tornando ai nuovi modelli introdotti dall'azienda degli Amodei, Claude Opus 4 è il modello più potente della nuova famiglia. à ottimizzato per compiti che richiedono ragionamento profondo, pianificazione strategica e gestione di attività complesse e di lunga durata. à indicato per applicazioni di Agent AI avanzate oppure per la ricerca e sviluppo. Vanta una migliorata capacità di memoria e mantenimento del contesto. Le sue prestazioni nella scrittura di codice informatico sono state sottolineate, dice Anthropic, da punteggi elevati in benchmark di settore (SWE-bench 72,5%, Terminal-bench 43,2%). Al momento l'accesso è riservato a chi è abbonato alla versione Pro o Max. Claude Sonnet 4, con accesso free, è il modello «medio» di Anthropic (poi c'è il compatto Haiku): secondo l'azienda è un notevole miglioramento rispetto al predecessore Sonnet 3.7, offrendo capacità di codifica e ragionamento superiori e una maggiore precisione nel seguire istruzioni. Secondo l'azienda va considerato una soluzione ottimale per un'ampia gamma di casi d'uso, inclusa la generazione di codice di qualità elevata, pronto per la produzione. Entrambi i modelli sono «ibridi», capaci di risposte quasi istantanee o di un «pensiero profondo» (deep thinking) per analisi più dettagliate. Anthropic ha anche lavorato per ridurre la tendenza dei modelli a prendere «scorciatoie», diminuendo tale comportamento del 65% rispetto a Sonnet 3.7. I costi di utilizzo tramite API rimangono allineati alle versioni precedenti.Â
23 maggio 2025
© RIPRODUZIONE RISERVATA