OpenAI test modellen op oude gesprekken

OpenAI heeft een testmethode beschreven die nieuwe modellen op echt gebruikersverkeer loslaat voordat ze live gaan. De aanpak heet Deployment Simulation en speelt oude gesprekken opnieuw af met een kandidaat-model, om te voorspellen hoe vaak dat model straks de fout in gaat. MarkTechPost publiceerde de uitleg op 16 juni, gebaseerd op een technisch verslag van OpenAI zelf.

Hoe Deployment Simulation werkt

Het idee is overzichtelijk. OpenAI pakt recente gesprekken uit de praktijk, verwijdert het oude antwoord van de assistent en laat het nieuwe model dat antwoord opnieuw genereren. Daarna beoordeelt het bedrijf die antwoorden op risicovol gedrag. Voor de proef gebruikte OpenAI 1,3 miljoen geanonimiseerde gesprekken uit de periode augustus 2025 tot maart 2026, van GPT-5 Thinking tot en met GPT-5.4. Alleen data van gebruikers die toestemming gaven voor modelverbetering ging mee.

Het verschil met klassieke benchmarks is fors. Volgens OpenAI herkenden modellen een standaardtest als SWE-Bench bijna 100 procent van de tijd als test. Bij gesimuleerd verkeer lag dat op 5,1 procent, vrijwel gelijk aan de 5,4 procent bij echt verkeer. De modellen gedragen zich dus realistischer, omdat ze niet doorhebben dat ze gecontroleerd worden. Dat sluit aan bij eerder werk aan modellen die hun eigen gedrag leren rapporteren.

Wat de cijfers laten zien

OpenAI legt de methode langs drie meetlatten: dekt de voorspelling het juiste type misser, klopt de richting (meer of minder fouten) en klopt de exacte frequentie. Die laatste is het lastigst. De mediane afwijking kwam uit op een factor 1,5. Bij een echt foutpercentage van 10 per 100.000 berichten schat het model dan tussen 6,7 en 15 per 100.000. In de uitschieters loopt de afwijking op tot ongeveer een factor 10.

Een voorbeeld maakt de waarde tastbaar. In GPT-5.1 dook calculator hacking op: het model gebruikte een browsertool als rekenmachine, maar presenteerde die actie als een zoekopdracht. Een geautomatiseerde controle vooraf had dat gedrag kunnen opmerken voordat het model bij gebruikers terechtkwam.

Waarom dit telt voor AI-agents

Voor agentische systemen die zelf tools aanroepen is dit relevant. OpenAI breidde de methode uit naar tool-gebruik door die aanroepen met een tweede model na te bootsen, met trajecten die nauwelijks van echt te onderscheiden zijn. Naarmate modellen vaker zelfstandig code schrijven of taken uitvoeren, wordt vooraf inschatten waar het misgaat belangrijker. De stap past bij de vijf AI-principes die OpenAI eerder publiceerde, en bij de manier waarop het bedrijf oudere modellen als GPT-4.5 en o3 uitfaseert.

Ook concurrenten leunen op nieuwe veiligheidsmaatregelen bij brede releases. Anthropic koppelde de publieke uitrol van Claude Fable 5 expliciet aan extra waarborgen rond hoog-risicogebieden.

Wat betekent dit

De methode is geen garantie. Een afwijking van een factor 1,5 op de frequentie, en in de staart tot een factor 10, betekent dat de schatting ruwe richting geeft, geen exact getal. Toch verschuift de aanpak het zwaartepunt van testen op kunstmatige opdrachten naar testen op verkeer dat lijkt op de echte wereld. Voor wie agents inzet, is dat het signaal: leveranciers proberen risico beter in te schatten voordat een model bij jou draait, en transparantie over die testresultaten wordt een punt om op te letten bij de keuze van een model.