Anthropic wil branchebrede meetlat voor jailbreaks

Anthropic stelt samen met Amazon, Microsoft en Google een gedeeld systeem voor om de ernst van jailbreaks te scoren. Het voorstel valt onder Project Glasswing en moet AI-labs een gemeenschappelijke taal geven om beveiligingslekken in taalmodellen te beoordelen. Cryptobriefing en Fortune schreven er deze week over.

Een jailbreak is een prompt of techniek die de veiligheidsgrenzen van een model omzeilt, bijvoorbeeld om het toch gevaarlijke instructies te laten geven. Tot nu toe behandelt elk lab zo’n melding op zijn eigen manier, vaak alsof elk lek even urgent is. Dat kost tijd en middelen, ook bij problemen die in de praktijk weinig schade aanrichten.

Hoe de meetlat werkt

Het kader beoordeelt een jailbreak op twee hoofdvragen: hoe makkelijk is de techniek te vinden, en hoeveel schade kan een aanvaller er echt mee aanrichten. Die twee dimensies worden verder opgesplitst in vier assen. Ze kijken naar hoeveel offensieve capaciteit een aanvaller wint, hoe breed dat over verschillende aanvalstypes geldt, hoe makkelijk de methode te wapenen is, en of de techniek al zelfstandig door anderen te ontdekken valt.

Met die score kunnen securityteams prioriteren. Een lek dat lastig te vinden is en nauwelijks nieuwe schade oplevert, krijgt een lagere prioriteit dan een breed inzetbare methode die makkelijk te misbruiken is. Anthropic wil naast de scoremethode ook een gedeeld draaiboek voor de reactie, zodat labs en onderzoekers dezelfde stappen volgen.

Aanleiding: de Fable 5-affaire

Het voorstel komt niet uit de lucht vallen. In juni 2026 vonden onderzoekers van Amazon een specifieke jailbreak in Claude Fable 5. Het Amerikaanse ministerie van Handel schortte daarop de wereldwijde toegang tot zowel Fable 5 als het krachtigere Mythos 5 op. Anthropic zette de modellen op 1 juli weer aan nadat het aan een reeks voorwaarden voldeed, waaronder deelname aan juist dit branchekader. Meer daarover staat in ons bericht over de terugkeer van Claude Fable 5 na de exportban.

Anthropic bouwde ondertussen een veiligheidsclassifier die naar eigen zeggen meer dan 99 procent van de pogingen blokkeert die de gemelde jailbreak proberen na te bootsen. Verdachte verzoeken worden doorgestuurd naar Claude Opus 4.8, dat op dit punt strenger reageert. Dezelfde week toonde Anthropic zich ook actief op productvlak, met de goedkopere en agentische Claude Sonnet 5.

Wat betekent dit

Een gedeelde meetlat past in een bredere beweging waarin overheden en bedrijven afspraken maken over AI-veiligheid, zoals eerder het vrijwillige veiligheidskader van het Witte Huis. Voor bedrijven die Claude, Copilot of andere modellen inzetten, kan zo’n systeem betekenen dat lekken sneller en consistenter worden afgehandeld. De vraag is of concurrenten die niet in Glasswing zitten meedoen, en of een vrijwillig kader standhoudt als een lab er commercieel nadeel van ondervindt. Dat de vier assen nu openliggen, geeft in elk geval onderzoekers buiten de grote labs iets om op te reageren. De timing is veelzeggend: het voorstel volgt kort op de terughoudendheid rond OpenAI’s GPT-5.6 Sol, waar de overheid eveneens een rem op de brede uitrol zette.