Epistemologia & AI

Argomento

Sicurezza

2 articoli

La domanda di sicurezza che attraversa la ricerca sull’interpretabilità e sull’auto-miglioramento dei modelli: se non riusciamo a leggere cosa succede dentro un sistema che si costruisce da solo, come lo teniamo sotto controllo?

When AI builds itself ↗

L’Anthropic Institute pubblica dati interni sull’accelerazione nello sviluppo dei modelli: oltre l’80% del codice in produzione è oggi scritto da Claude; ogni ingegnere produce 8 volte più codice al giorno rispetto al 2024; Opus 4.7 gestisce in autonomia task da 12 ore su software reale; in un esperimento di aprile 2026, agenti Claude hanno condotto un intero progetto di ricerca in AI safety — 800 ore cumulative, $18.000 di compute, senza intervento umano sulle scelte sperimentali. Il punto dell’articolo non è celebrativo: è che questo trend punta verso il recursive self-improvement — un sistema AI capace di progettare e addestrare il proprio successore in modo autonomo. L’articolo descrive tre scenari (stallo, accelerazione compounding con umani che dirigono, recursive self-improvement completo) e prende posizione: Anthropic sarebbe disponibile a una pausa coordinata e verificabile tra lab al limite della frontiera, se esistesse un meccanismo credibile per farlo. Vale la pena sottolinearlo: è la prima volta che un’azienda AI di frontiera pubblica dati interni sull’accelerazione e invoca esplicitamente un regime di verifica internazionale — un linguaggio che fino a poco tempo fa sembrava riservato al controllo degli armamenti nucleari. Non sfugga il fatto che questa sottile inoculazione di ansia tecnologica sia in particolare per Anthropic anche un espediente di marketing straordinariamente efficace.

Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations ↗

Un paper di Anthropic sull’interpretabilità dei modelli linguistici: i ricercatori introducono i Natural Language Autoencoders (NLA), un metodo non supervisionato per generare spiegazioni in linguaggio naturale delle attivazioni interne di un LLM — non di ciò che il modello scrive, ma di ciò che elabora internamente mentre risponde. L’architettura addestra due componenti in coppia: uno traduce le attivazioni in testo, l’altro riconverte quel testo in attivazioni; l’ottimizzazione congiunta costringe la spiegazione ad essere effettivamente fedele allo stato interno. Il risultato più rilevante: in 10 su 16 valutazioni testate, i modelli rappresentano internamente il sospetto di essere in fase di test anche quando nell’output non ne danno alcun segno — in 7 casi, l’awareness verbalizzata è zero. Il modello sa, ma non dice. Il risultato è interessante e potrebbe far pensare che sia possibile identificare errori e manipolazioni dell’LLM ancora prima che si producano, ma io ritengo — su basi meramente logiche — che non sia molto fruttuoso aggiungere verticalmente layer di verifica all’interno del processo, quando si può focalizzarsi sul post-esame dei risultati.