Spunto: Detecting and preventing distillation attacks — Anthropic, Feb 2026
Anthropic ha pubblicato un articolo che descrive campagne di “distillation attack” condotte da tre laboratori cinesi — DeepSeek, Moonshot, MiniMax — per estrarre capabilities da Claude su scala industriale. I numeri sono significativi: 16 milioni di scambi, circa 24.000 account fraudolenti, infrastrutture proxy sofisticate.
I fatti tecnici descritti sono plausibili e internamente coerenti. Ma vale la pena analizzare anche il frame narrativo scelto da Anthropic, non solo i contenuti.
È un comunicato tecnico o un documento lobbistico?
Il testo mescola tre livelli distinti: evidenza tecnica, posizionamento geopolitico (“CCP”, “authoritarian governments”, “export controls”) e advocacy esplicita per politiche regolatorie. Anthropic si cita come sostenitrice degli export controls, ma il pubblico non ha accesso ai dati grezzi su cui si basano le attribuzioni.
Non è impossibile che i fatti siano accurati. Ma la struttura del documento serve anche a pressare i policymaker in una direzione specifica. Questo non invalida le evidenze, ma richiede una lettura critica.
La distinzione tra distillazione “illecita” e “legittima” è comoda
Anthropic stessa distilla i propri modelli. OpenAI ha usato contenuti web senza autorizzazione esplicita per addestrare GPT. Il confine tra “fair use”, “legittimo” e “illecito” nel machine learning è ancora profondamente ambiguo, sia sul piano legale che tecnico.
Il problema reale non è la tecnica in sé — la distillazione è neutrale — ma la violazione dei ToS e, separatamente, le implicazioni di sicurezza nazionale. Mescolare i due piani indebolisce l’argomentazione.
“I modelli distillati perdono i safeguards”: vero, ma non specifico
L’argomento che i modelli distillati illecitamente perdano i guardrail di sicurezza è legittimo. Tuttavia, lo stesso accade con qualsiasi modello open o semi-open che viene fine-tuned dopo il rilascio. Non è una caratteristica esclusiva delle distillation attack: è un problema strutturale dell’ecosistema AI. Usarlo come argomento forte a sostegno di regolamentazione selettiva è parzialmente scorretto.
“Le performance di DeepSeek dipendono da Claude”: quanto è vera questa narrativa?
L’articolo attribuisce a DeepSeek circa 150.000 scambi estratti da Claude. Un numero relativamente contenuto rispetto al corpus di training di un modello frontier. È plausibile che questa sia una componente del training data, non la spiegazione principale delle capacità di DeepSeek-R1.
La narrativa implicita — “i loro progressi dipendono significativamente da noi” — serve a ridimensionare i successi dei lab cinesi, il che è geopoliticamente conveniente ma tecnicamente discutibile.
La risposta proposta tende alla centralizzazione
Le contromisure annunciate — intelligence sharing tra grandi lab, access controls rafforzati, behavioral fingerprinting — vanno nella direzione di un modello in cui pochi player dominanti controllano l’accesso alla conoscenza AI.
Il rischio di proliferazione incontrollata è reale, e non va minimizzato. Ma vale la pena chiedersi: queste misure rafforzano anche barriere all’ingresso per nuovi attori, inclusi quelli legittimi e non legati a governi autoritari?
Cosa è invece solido
Detto questo, alcune osservazioni nell’articolo meritano attenzione genuina:
- La distillation attack è una tecnica reale e documentata indipendentemente da Anthropic.
- L’uso di proxy hydra per aggirare restrizioni geografiche è un pattern noto nel settore.
- L’estrazione sistematica di chain-of-thought reasoning data è un vettore d’attacco particolarmente sofisticato: genera training data di alta qualità su ragionamento multi-step, difficile da ottenere altrimenti.
- La rilevazione tramite behavioral fingerprinting (volume anomalo, struttura ripetitiva dei prompt, concentrazione su capabilities specifiche) è un approccio sensato e probabilmente efficace per pattern ad alta ripetitività.
Takeaway
Questo articolo è allo stesso tempo una disclosure tecnica legittima e un documento di advocacy geopolitica. Le due cose non si escludono, ma confonderle porta a conclusioni poco rigorose.
Come tecnici, è utile leggere questi comunicati separando i livelli: cosa è osservato, cosa è inferito, e cosa è promosso.
Il fenomeno è reale. La narrazione intorno ad esso è costruita.