Meeste AI-agents publiceren geen veiligheidstests

Steeds meer bedrijven zetten AI-agents in die zelfstandig taken uitvoeren, van code schrijven tot bestanden doorzoeken. Over de veiligheid van die agents is opvallend weinig bekend. Dat blijkt uit het AI Agent Index, een inventarisatie van dertig veelgebruikte agents die deze week werd gepresenteerd op de FAccT-conferentie in Montreal.

Weinig openheid over tests

De onderzoekers, verbonden aan de University of Cambridge, de University of Washington, Harvard Law School en Stanford, brachten van elke agent in kaart wat de makers publiceren over capaciteiten en veiligheid. Het resultaat is mager. Negen van de dertig agents publiceren benchmarks over hun capaciteiten, bijvoorbeeld voor het bedienen van een computer of voor programmeren. Vijfentwintig van de dertig delen geen enkel intern veiligheidsresultaat. Onafhankelijke toetsing door derden is voor maar drie agents gedocumenteerd: Claude van Anthropic, ChatGPT van OpenAI en OpenAI Codex.

Agent-specifieke risico’s blijven onderbelicht

Labs als OpenAI, Anthropic en Google publiceren wel systeemkaarten, maar die gaan vooral over de onderliggende modellen, niet over het gedrag van de agent zelf. Volgens de index hebben alleen ChatGPT Agent, OpenAI Codex, Claude Code en Gemini 2.5 Computer Use een systeemkaart die specifiek op de agent is toegespitst. Een agent kan immers acties uitvoeren, gegevens benaderen en externe tools aanroepen, gedrag dat een losse modeltest niet afdekt. Achttien van de dertig onderzochte agents hebben wel een bug bounty of een meldpunt voor kwetsbaarheden.

Dat agents in de praktijk kwetsbaar zijn, liet een aparte test eerder deze maand zien. TechTimes meldde dat van dertien geteste agents geen enkele boven de 40 procent veilige taakafronding uitkwam. Het beeld sluit aan bij eerdere zorgen over de toetsing van krachtige modellen, zoals toen METR een test van GPT-5.6 Sol verwierp na aanwijzingen voor cheating.

Wat dit betekent voor toezicht

Voor toezichthouders is de versnippering een probleem. Wie een agent bouwt, controleert vaak maar een deel van de keten. Het model komt van de ene partij, de tools van een andere, en de inrichting van weer een derde. Daardoor is een betrouwbare beoordeling lastig. In Europa wordt dat extra relevant nu de transparantieregels van de EU AI Act vanaf 2 augustus gaan gelden. Ook de Amerikaanse overheid stuurt aan op meer controle vooraf, zoals bij de gefaseerde uitrol van GPT-5.6 aan vooraf gescreende partners. En Five Eyes waarschuwde onlangs nog voor AI die cyberaanvallen versnelt.

Wat betekent dit

Voor bedrijven die agents inzetten is het verstandig om niet blind te varen op marketingclaims. Vraag leveranciers naar concrete testresultaten en onafhankelijke audits, en houd er rekening mee dat die er voor de meeste agents simpelweg nog niet zijn. De index, te vinden op aiagentindex.mit.edu, laat zien dat de technologie voorloopt op de verantwoording. Dat gat dichten begint bij openheid over wat een agent wel en niet veilig aankan.