OpenAI’s nieuwe realtime spraakmodellen: van live vertaling tot voice agents die écht taken uitvoeren

OpenAI heeft drie nieuwe audiomodellen aangekondigd voor de Realtime API: GPT‑Realtime‑2, GPT‑Realtime‑Translate en GPT‑Realtime‑Whisper. In de aankondiging beschrijft OpenAI hoe realtime audio hiermee verschuift van simpele ‘call-and-response’ naar voice interfaces die kunnen luisteren, redeneren, vertalen, transcriberen en ondertussen acties uitvoeren (OpenAI, 7 mei 2026).

Waarom is dit relevant? Omdat spraak vaak het laatste ‘trage’ stuk in een AI-workflow is: transcriptie, LLM-call, TTS, tool-calls… Met één realtime spraakstack kun je veel van die stappen samenvoegen—en dat maakt nieuwe toepassingen mogelijk.

Wat is er nieuw: GPT‑Realtime‑2, Translate en Whisper (streaming)

Volgens OpenAI is GPT‑Realtime‑2 hun eerste voice model met “GPT‑5-class reasoning” voor lastiger requests en natuurlijkere multi-turn gesprekken. Daarnaast komen er twee gespecialiseerde modellen: GPT‑Realtime‑Translate (live vertaling van 70+ inputtalen naar 13 outputtalen) en GPT‑Realtime‑Whisper (streaming speech-to-text met lage latency) (OpenAI).

Agentische spraak: preambles, parallel tool-calls en langere context

Opvallend is dat OpenAI de Realtime-ervaring niet alleen als ‘mooie stem’ positioneert, maar als agentische interface. Denk aan korte “preambles” (“ik kijk dit even na”), meerdere tool-calls tegelijk en expliciete tool-transparantie (“je agenda checken”), plus een grotere context voor langere sessies. Dat sluit aan bij de trend die we eerder zagen rond voice-naar-actie en agent management in klantenservice (zie: agent management in klantenservice).

Maar werkt het ook beter? Let op de ‘speech reasoning gap’

Voice modellen zijn notoir lastig te beoordelen. Artificial Analysis beschrijft hoe het hun Speech-to-Speech benchmarking opzet, met o.a. redeneren, gespreksdynamiek en end-to-end agentic performance (Artificial Analysis methodologie). Hetzelfde team publiceerde ook Big Bench Audio, een dataset die Big Bench Hard-vragen naar audio vertaalt om te meten hoeveel “redenatie” er verloren gaat zodra input en output spraak worden (Hugging Face blog).

OpenAI claimt verbeteringen op audio-evals (o.a. hogere scores op Big Bench Audio bij hun configuraties) en noemt daarnaast praktische verbeteringen zoals herstelgedrag en domeinbegrip (OpenAI). Voor teams die voice agents willen inzetten in support of sales is dat belangrijk: latency is één ding, maar betrouwbaarheid in multi-turn situaties bepaalt of een agent de taak ook echt afrondt.

Wat betekent dit voor bouwers (en bedrijven)?

Voor ontwikkelaars wordt de drempel lager om realistische voice apps te bouwen: live captions, meeting-notes die bijblijven, realtime meertalige support, of een voice agent die afspraken plant terwijl het gesprek doorgaat. Tegelijk wordt evaluatie belangrijker: meet niet alleen “klinkt het natuurlijk?”, maar ook “lost het de taak op?” en “blijft het veilig?”.

Wie al met OpenAI’s spraakstack experimenteert, kan dit nieuws goed plaatsen naast onze eerdere updates over GPT‑Realtime‑2 in de API en de bredere productversnelling rond GPT‑5.5 (bijv. GPT‑5.5 Instant als standaard en GPT‑5.5‑Cyber met Trusted Access).

Conclusie: spraak wordt een volwaardige product-interface

De kern: met GPT‑Realtime‑2, Translate en Whisper zet OpenAI spraak neer als interface waarmee software werk kan doen, niet alleen praten. De komende maanden wordt het interessant om te zien welke partijen het snelst van demo naar productie gaan—en welke evaluaties (zoals Big Bench Audio) gaan bepalen wie echt de beste voice agent bouwt.