OpenAI zet vol in op realtime spraak: GPT‑Realtime‑2, live vertaling en streaming Whisper in één API
Spraak wordt steeds vaker de snelste route naar ‘agentic’ software: praten, laten zoeken, laten boeken, laten oplossen. OpenAI speelt daar nu hard op in met drie nieuwe audiomodellen in zijn API. Volgens OpenAI moeten deze modellen voice-apps niet alleen natuurlijker laten klinken, maar vooral slimmer laten handelen tijdens het gesprek.
Wat is er nieuw: drie modellen voor één realtime spraakstack
De kern is GPT‑Realtime‑2: OpenAI noemt dit zijn eerste voice model met ‘GPT‑5‑class reasoning’ voor complexere verzoeken in live gesprekken (bron). Daarnaast komen er twee ‘bouwstenen’ die je normaal met losse diensten stapelt:
- GPT‑Realtime‑Translate voor live spraakvertaling (OpenAI schrijft: 70+ inputtalen naar 13 outputtalen), bedoeld om gesprekken realtime te blijven volgen.
- GPT‑Realtime‑Whisper voor streaming speech-to-text, zodat transcriptie niet achteraf hoeft maar ‘meeloopt’ met het gesprek.
OpenAI benadrukt dat deze combinatie realtime audio verschuift van “call-and-response” naar systemen die tegelijk kunnen luisteren, redeneren, vertalen en transcriberen terwijl de gebruiker doorpraat.
Waarom dit belangrijk is voor voice agents (en waarom latency niet alles is)
In hetzelfde bericht noemt OpenAI functies die vooral relevant zijn voor werkende agents: parallelle tool-calls, hoorbare ‘preambles’ (“ik check dat even”), beter herstelgedrag bij fouten en een grotere context (32K naar 128K) voor langere sessies (OpenAI). Dat sluit aan bij een trend die we eerder op AI Feiten beschreven: realtime voice agents worden pas echt bruikbaar als interactie vloeiend blijft én het systeem taken kan afronden.
Benchmarks: wat zeggen externe meetlatten over ‘audio-intelligentie’?
OpenAI verwijst naar externe evaluaties die specifiek voor audio zijn opgezet. Zo beschrijft Artificial Analysis zijn speech-to-speech benchmarkmethodologie, met o.a. Big Bench Audio voor redeneren op audiovragen. Daarnaast wijst OpenAI op de Audio MultiChallenge-evaluatie die wordt gehost via Scale’s labs/leaderboard-omgeving (Scale Labs). Let op: benchmarks zijn nuttig, maar ze meten vooral gestandaardiseerde taken — jouw use case (klantenservice, zorg, sales) valt of staat met prompts, guardrails en integraties.
Wat kun je hier vandaag mee bouwen?
Voor developers betekent dit concreet: minder ‘plakwerk’ tussen STT, vertaling en een chatmodel. Denk aan:
- Meertalige support waarbij klant en medewerker ieder hun eigen taal spreken, met live vertaling plus transcriptie voor compliance.
- Handsfree workflow-assistenten (planning, CRM-updates, tickets) waarbij de agent tijdens het gesprek tools aanroept.
- Live captions & notulen die meteen beschikbaar zijn, in plaats van minuten later.
Als je al experimenteert met OpenAI’s spraakstack, sluit dit mooi aan op ons eerdere overzicht: GPT‑Realtime‑2 in de API.
Conclusie: ‘voice’ schuift op van interface naar uitvoerende laag
De echte verschuiving is dat spraak niet langer alleen input/output is, maar een doorlopende interface waarin een agent context vasthoudt en ondertussen taken uitvoert. Tegelijk blijft vertrouwen cruciaal: OpenAI zegt safeguards en beleid te hanteren voor de Realtime API (usage policies). Voor makers is dit het moment om niet alleen aan latency te denken, maar ook aan transparantie (“wat doet de agent nu?”), foutafhandeling en privacy-by-design. Wie dat goed doet, kan voice-apps bouwen die echt werk uit handen nemen — in elke taal.
Gerelateerd op AI Feiten: OpenAI’s ChatGPT-ads pilot breidt uit en ChatGPT ‘Trusted Contact’ laten zien hoe snel productkeuzes nu ook aan vertrouwen en governance raken.
