OpenAI brengt GPT‑Realtime‑2 naar de API: live vertalen en transcriberen in één spraakstack
OpenAI heeft drie nieuwe audio-modellen in zijn API gezet waarmee realtime spraak-apps een flinke stap richting ‘echt bruikbare’ voice agents maken. In één release combineert het bedrijf een zwaarder redeneer-model voor live gesprekken (GPT‑Realtime‑2) met een live vertaalmodel en een streaming transcriptiemodel. Volgens OpenAI zijn alle drie nu beschikbaar via de Realtime API (OpenAI, 7 mei 2026).
Wat is er nieuw: drie modellen voor realtime audio
De update draait om drie componenten die je als ontwikkelaar los kunt inzetten — of samen als complete spraakstack:
- GPT‑Realtime‑2: een model voor live spraak-naar-spraak interacties dat volgens OpenAI “GPT‑5-class reasoning” biedt voor complexere vragen, context en tool-calls.
- GPT‑Realtime‑Translate: live vertaling van 70+ inputtalen naar 13 outputtalen, bedoeld om gesprekken “in tempo” te vertalen.
- GPT‑Realtime‑Whisper: streaming speech-to-text dat woorden transcribeert terwijl iemand praat.
Opvallend: OpenAI positioneert voice niet meer als ‘snelle call-and-response’, maar als interface waarmee software taken kan afhandelen terwijl het gesprek doorloopt.
Waarom GPT‑Realtime‑2 vooral interessant is voor voice agents
Waar eerdere voice-demo’s vaak blijven hangen in vloeiende stem en lage latency, legt OpenAI nu nadruk op agentic gedrag: de stem moet kunnen luisteren, redeneren en handelen zonder dat het gesprek stilvalt.
OpenAI noemt daarbij o.a.:
- Preambles (“even checken…”) zodat de gebruiker hoort dat de agent bezig is.
- Parallelle tool-calls met hoorbare transparantie (“ik kijk je agenda na”).
- Betere recovery wanneer iets faalt (niet stilvallen, maar netjes terugmelden).
- Grotere context: de context window zou omhoog gaan van 32K naar 128K voor langere sessies (volgens OpenAI).
Deze richting sluit aan bij wat we eerder op AI Feiten schreven over het volwassen worden van realtime voice agents, waar events en lage latency doorslaggevend worden: realtime voice agents worden volwassen en waarom latency, TTS en toezicht het nieuwe slagveld zijn.
Benchmarks & claims: wat kunnen we verifiëren?
OpenAI onderbouwt de verbeteringen met verwijzingen naar twee externe evaluaties:
- Big Bench Audio (Artificial Analysis) als benchmark voor audio-intelligentie.
- Audio MultiChallenge (Scale) voor multi-turn spoken instruction following.
In de aankondiging stelt OpenAI dat GPT‑Realtime‑2 (high) 15,2% hoger scoort op Big Bench Audio dan GPT‑Realtime‑1.5, en dat GPT‑Realtime‑2 (xhigh) 13,8% hoger scoort op Audio MultiChallenge (OpenAI). Belangrijk detail: dit zijn resultaten die OpenAI koppelt aan deze benchmarks; wie een productie-agent bouwt, zal vooral moeten testen op eigen gesprekken, domeintaal en compliance-eisen.
Wat betekent dit voor bedrijven (en voor de AI-markt)?
De boodschap is duidelijk: spraak-AI schuift op van ‘praten’ naar ‘doen’. Dat zie je ook in OpenAI’s voorbeelden (zoals voice-to-action) en in de nadruk op tool-calls. Denk aan klantenservice die afspraken plant, reisapps die vluchtwijzigingen verwerken, of IT-support die live troubleshooting begeleidt.
Voor organisaties die al met voice experimenteren, wordt het aantrekkelijker om één leverancier te gebruiken voor realtime conversatie + vertaling + transcriptie. Tegelijkertijd groeit de afhankelijkheid van de Realtime API: latency, uptime, kosten en guardrails worden onderdeel van je productkwaliteit.
Wie zich afvraagt hoe zulke realtime spraakdiensten technisch kunnen schalen, is dit relevante achtergrond: OpenAI’s WebRTC-architectuur voor lage latency spraak-AI.
Conclusie: voice agents krijgen eindelijk ‘gereedschap’
Met GPT‑Realtime‑2 en de twee ondersteunende audio-modellen maakt OpenAI van spraak een volwaardige interface voor workflows: praten, vertalen, meeschrijven én acties uitvoeren in één continue sessie. Als de claims over context, recovery en tool-calling in de praktijk standhouden, kan dit veel voice-producten uit de demo-fase trekken.
En de timing is interessant: OpenAI experimenteert ook met een nieuwe inkomstenlaag rond ChatGPT (ads) — iets waar wij eerder al over schreven in ChatGPT-ads: self-serve Ads Manager, CPC-biedingen en betere meting. Meer platform-inkomsten kunnen betekenen: meer druk om voice “enterprise-ready” te maken, sneller.
