Realtime spraak-AI versnelt: OpenAI’s GPT‑Realtime‑2 en Google’s Gemini Flash TTS zetten de toon
De afgelopen uren waren er geen grote, nieuwe productlanceringen. Daarom een korte marktupdate over een opvallende versnelling die deze week wél doorzet: realtime spraak-AI die niet alleen praat, maar ook kan vertalen, transcriberen en taken uitvoeren.
OpenAI kondigde drie nieuwe audiomodellen in de API aan — waaronder GPT‑Realtime‑2 — met nadruk op live gesprekken, tool-calls en (volgens OpenAI) betere prestaties op audio-evaluaties. Tegelijk rolt Google Gemini 3.1 Flash TTS uit, met audio-tags voor regie over stijl en tempo, plus SynthID-watermarking in alle output.
1) OpenAI: één realtime spraakstack (redeneren, vertalen, transcriberen)
De kern van OpenAI’s update is een trio: GPT‑Realtime‑2 (spraak-naar-spraak), GPT‑Realtime‑Translate (live vertaling; OpenAI noemt 70+ inputtalen naar 13 outputtalen) en GPT‑Realtime‑Whisper (streaming speech-to-text). Opvallend in de beschrijving is niet alleen ‘sneller’, maar vooral ‘agentischer’: preambles (“even checken…”), parallelle tool-calls en expliciet herstelgedrag bij fouten (bron: OpenAI).
2) Google: Gemini Flash TTS mikt op regie (audio-tags) en detecteerbaarheid (SynthID)
Google positioneert Gemini 3.1 Flash TTS als een stap in ‘controle’: je kunt met zogeheten audio-tags midden in een tekst sturen op pacing, expressie en delivery. Het model ondersteunt volgens Google 70+ talen en wordt uitgerold via Gemini API/AI Studio en Vertex AI. Belangrijk detail voor de discussie rond misinformatie: Google zegt dat alle audio wordt voorzien van een SynthID-watermark (bron: Google).
3) Benchmarks schuiven mee: ‘klinkt goed’ is niet genoeg
Spraakmodellen zijn lastig objectief te vergelijken. Daarom is het interessant dat zowel OpenAI als Google expliciet verwijzen naar externe meetlatten. Google noemt bijvoorbeeld een Elo-score op de Artificial Analysis TTS leaderboard (en benadrukt prijs/kwaliteit), terwijl OpenAI in zijn post linkt naar audio-gerichte evaluaties. De onderliggende trend: voice AI wordt afgerekend op ‘task success’ en gesprekssamenhang, niet alleen op een mooie stem (zie o.a. Artificial Analysis).
Wat betekent dit voor gebruikers en bedrijven?
De praktische implicatie is dat ‘spraak’ steeds meer een productiviteitslaag wordt, net als chat. Denk aan: meertalige support die live vertaalt, meeting-notulen die meekomen met het gesprek, of een assistent die tijdens het praten afspraken plant.
Dat raakt aan iets waar Leon Tindemans, die organisaties begeleidt in AI-geletterdheid, regelmatig op wijst.
“Een spraakassistent klinkt al snel overtuigend, maar de echte vaardigheid zit erin dat je weet wanneer je hem mag vertrouwen en wanneer je zelf even meekijkt.” Leon Tindemans, AI-expert en Copilot- & ChatGPT-trainer
Voor AI-Feiten-lezers is dit ook een goed moment om onze eerdere stukken erbij te pakken:
- OpenAI zet vol in op realtime spraak: GPT‑Realtime‑2, live vertaling en streaming Whisper
- OpenAI brengt GPT‑Realtime‑2 naar de API: live vertalen en transcriberen in één spraakstack
- OpenAI’s nieuwe realtime spraakmodellen: van live vertaling tot voice agents die écht taken uitvoeren
- Wispr Flow gokt op India: waarom voice AI daar de ultieme stresstest is
Conclusie: de markt verschuift van ‘voice als interface’ naar ‘voice-to-action’. OpenAI bouwt aan een realtime stack (praten + vertalen + transcriberen + handelen), terwijl Google inzet op expressieve TTS met controle én watermarking. Voor wie voice in productie wil brengen, wordt de vraag steeds minder ‘kan het praten?’ en steeds meer: lost het taken betrouwbaar op, en kun je het auditen?
