Distillation Attack: fatti, narrativa e geopolitica dell'AI

Spunto: Detecting and preventing distillation attacks — Anthropic, Feb 2026

Anthropic ha pubblicato un articolo che descrive campagne di “distillation attack” condotte da tre laboratori cinesi — DeepSeek, Moonshot, MiniMax — per estrarre capabilities da Claude su scala industriale. I numeri sono significativi: 16 milioni di scambi, circa 24.000 account fraudolenti, infrastrutture proxy sofisticate.

I fatti tecnici descritti sono plausibili e internamente coerenti. Ma vale la pena analizzare anche il frame narrativo scelto da Anthropic, non solo i contenuti.

È un comunicato tecnico o un documento lobbistico?

Il testo mescola tre livelli distinti: evidenza tecnica, posizionamento geopolitico (“CCP”, “authoritarian governments”, “export controls”) e advocacy esplicita per politiche regolatorie. Anthropic si cita come sostenitrice degli export controls, ma il pubblico non ha accesso ai dati grezzi su cui si basano le attribuzioni.

Non è impossibile che i fatti siano accurati. Ma la struttura del documento serve anche a pressare i policymaker in una direzione specifica. Questo non invalida le evidenze, ma richiede una lettura critica.

La distinzione tra distillazione “illecita” e “legittima” è comoda

Anthropic stessa distilla i propri modelli. OpenAI ha usato contenuti web senza autorizzazione esplicita per addestrare GPT. Il confine tra “fair use”, “legittimo” e “illecito” nel machine learning è ancora profondamente ambiguo, sia sul piano legale che tecnico.

Il problema reale non è la tecnica in sé — la distillazione è neutrale — ma la violazione dei ToS e, separatamente, le implicazioni di sicurezza nazionale. Mescolare i due piani indebolisce l’argomentazione.

“I modelli distillati perdono i safeguards”: vero, ma non specifico

L’argomento che i modelli distillati illecitamente perdano i guardrail di sicurezza è legittimo. Tuttavia, lo stesso accade con qualsiasi modello open o semi-open che viene fine-tuned dopo il rilascio. Non è una caratteristica esclusiva delle distillation attack: è un problema strutturale dell’ecosistema AI. Usarlo come argomento forte a sostegno di regolamentazione selettiva è parzialmente scorretto.

“Le performance di DeepSeek dipendono da Claude”: quanto è vera questa narrativa?

L’articolo attribuisce a DeepSeek circa 150.000 scambi estratti da Claude. Un numero relativamente contenuto rispetto al corpus di training di un modello frontier. È plausibile che questa sia una componente del training data, non la spiegazione principale delle capacità di DeepSeek-R1.

La narrativa implicita — “i loro progressi dipendono significativamente da noi” — serve a ridimensionare i successi dei lab cinesi, il che è geopoliticamente conveniente ma tecnicamente discutibile.

La risposta proposta tende alla centralizzazione

Le contromisure annunciate — intelligence sharing tra grandi lab, access controls rafforzati, behavioral fingerprinting — vanno nella direzione di un modello in cui pochi player dominanti controllano l’accesso alla conoscenza AI.

Il rischio di proliferazione incontrollata è reale, e non va minimizzato. Ma vale la pena chiedersi: queste misure rafforzano anche barriere all’ingresso per nuovi attori, inclusi quelli legittimi e non legati a governi autoritari?

Cosa è invece solido

Detto questo, alcune osservazioni nell’articolo meritano attenzione genuina:

La distillation attack è una tecnica reale e documentata indipendentemente da Anthropic.
L’uso di proxy hydra per aggirare restrizioni geografiche è un pattern noto nel settore.
L’estrazione sistematica di chain-of-thought reasoning data è un vettore d’attacco particolarmente sofisticato: genera training data di alta qualità su ragionamento multi-step, difficile da ottenere altrimenti.
La rilevazione tramite behavioral fingerprinting (volume anomalo, struttura ripetitiva dei prompt, concentrazione su capabilities specifiche) è un approccio sensato e probabilmente efficace per pattern ad alta ripetitività.

Takeaway

Questo articolo è allo stesso tempo una disclosure tecnica legittima e un documento di advocacy geopolitica. Le due cose non si escludono, ma confonderle porta a conclusioni poco rigorose.

Come tecnici, è utile leggere questi comunicati separando i livelli: cosa è osservato, cosa è inferito, e cosa è promosso.

Il fenomeno è reale. La narrazione intorno ad esso è costruita.