VS zet nieuwe stap in frontier AI-toezicht: NIST’s CAISI sluit testakkoorden met DeepMind, Microsoft en xAI

De Amerikaanse overheid wil eerder en dieper kunnen meekijken bij de krachtigste AI-modellen. Het Center for AI Standards and Innovation (CAISI) van NIST kondigde nieuwe overeenkomsten aan met Google DeepMind, Microsoft en xAI om zogeheten frontier-modellen te evalueren, ook vóór ze publiek beschikbaar zijn. In de aankondiging benadrukt NIST dat CAISI hiermee pre-deployment tests en gerichte security-research wil opschalen, met extra aandacht voor nationale veiligheid.

Waarom dit nieuwswaardig is: wie bepaalt straks de spelregels voor modeltests, en hoe voorkomen we dat veiligheid pas achteraf wordt ‘bijgeplakt’ nadat een model al overal in producten zit?

Wat CAISI precies afspreekt (en waarom dat ongewoon is)

NIST schrijft dat de afspraken CAISI toegang geven tot modellen voor publicatie, en daarnaast tot post-deployment assessments. Opvallend is ook dat ontwikkelaars volgens NIST in sommige gevallen modellen aanleveren met verminderde of verwijderde safeguards, zodat evaluatoren beter kunnen meten welke capaciteiten en risico’s er onder de motorkap zitten. NIST noemt dat CAISI inmiddels meer dan 40 evaluaties heeft afgerond, inclusief tests op state-of-the-art modellen die nog niet zijn uitgebracht.

Verder meldt NIST dat de afspraken testing in geclassificeerde omgevingen ondersteunen, en dat evaluatoren uit meerdere overheidsdelen kunnen meedoen via een interagency-groep (de TRAINS Taskforce). Dit is een duidelijke verschuiving: niet alleen richtlijnen en ‘best practices’, maar ook echte testprogramma’s met pre-release toegang.

De bredere trend: van ‘modelcards’ naar meetbare veiligheid

AI-labs publiceren de laatste tijd vaker system cards en safety-notities om uit te leggen welke mitigaties ze toepassen. OpenAI publiceerde bijvoorbeeld een system card voor GPT-5.5 Instant waarin het bedrijf aangeeft dat dit de eerste Instant-variant is die het als ‘High capability’ behandelt voor cybersecurity en bio/chemische preparedness — met bijbehorende safeguards. Zulke documenten helpen, maar CAISI’s aanpak zet een stap extra: externe evaluatie (door de overheid) en eerder in de lifecycle.

Wat betekent dit voor bedrijven die AI inzetten?

Voor organisaties die bouwen op grote modellen is dit potentieel goed nieuws: als pre-deployment tests leiden tot vrijwillige verbeteringen, wordt de kans kleiner dat een ‘modelupdate’ onverwacht risico’s introduceert. Tegelijk kan het betekenen dat labs sneller moeten aantonen dat hun modellen betrouwbaar zijn in gevoelige domeinen (denk aan security, defensie, financiën).

Dit past bij een bredere beweging die je ook terugziet in AI-Feiten: van strategische deals naar toezicht en security. Lees bijvoorbeeld over geclassificeerde AI-deals van het Pentagon, en hoe OpenAI in een eerder stuk zijn vijf AI-principes rond veiligheid en macht formuleerde. Ook op productniveau gaat security omhoog in de prioriteitenlijst, zoals bij Advanced Account Security met passkeys. Voor meer context over de actuele strijd rond ‘frontier’ en governance, zie ook onze AI-marktupdate over veiligheid en enterprise.

Conclusie: meer testmacht, maar ook meer vragen

De kern: CAISI bouwt aan een infrastructuur waarin de overheid eerder kan meten wat frontier AI kan en waar het mis kan gaan. Dat kan de kwaliteit van veiligheidsmaatregelen verbeteren en het speelveld richting ‘meetbare’ standaarden duwen. De keerzijde is dat er nu ook nieuwe vragen ontstaan: hoeveel van deze tests worden ooit publiek inzichtelijk, hoe voorkom je dat toezicht een geopolitiek instrument wordt, en welke labs — of landen — vallen buiten de boot? In 2026 lijkt duidelijk: frontier AI is niet alleen een productrace, maar ook een test- en governance-race.