Realtime spraak-AI versnelt: OpenAI’s GPT‑Realtime‑2 en Google’s Gemini Flash TTS zetten de toon

De afgelopen uren waren er geen grote, nieuwe productlanceringen. Daarom een korte marktupdate over een opvallende versnelling die deze week wél doorzet: realtime spraak-AI die niet alleen praat, maar ook kan vertalen, transcriberen en taken uitvoeren.

OpenAI kondigde drie nieuwe audiomodellen in de API aan — waaronder GPT‑Realtime‑2 — met nadruk op live gesprekken, tool-calls en (volgens OpenAI) betere prestaties op audio-evaluaties. Tegelijk rolt Google Gemini 3.1 Flash TTS uit, met audio-tags voor regie over stijl en tempo, plus SynthID-watermarking in alle output.

1) OpenAI: één realtime spraakstack (redeneren, vertalen, transcriberen)

De kern van OpenAI’s update is een trio: GPT‑Realtime‑2 (spraak-naar-spraak), GPT‑Realtime‑Translate (live vertaling; OpenAI noemt 70+ inputtalen naar 13 outputtalen) en GPT‑Realtime‑Whisper (streaming speech-to-text). Opvallend in de beschrijving is niet alleen ‘sneller’, maar vooral ‘agentischer’: preambles (“even checken…”), parallelle tool-calls en expliciet herstelgedrag bij fouten (bron: OpenAI).

2) Google: Gemini Flash TTS mikt op regie (audio-tags) en detecteerbaarheid (SynthID)

Google positioneert Gemini 3.1 Flash TTS als een stap in ‘controle’: je kunt met zogeheten audio-tags midden in een tekst sturen op pacing, expressie en delivery. Het model ondersteunt volgens Google 70+ talen en wordt uitgerold via Gemini API/AI Studio en Vertex AI. Belangrijk detail voor de discussie rond misinformatie: Google zegt dat alle audio wordt voorzien van een SynthID-watermark (bron: Google).

3) Benchmarks schuiven mee: ‘klinkt goed’ is niet genoeg

Spraakmodellen zijn lastig objectief te vergelijken. Daarom is het interessant dat zowel OpenAI als Google expliciet verwijzen naar externe meetlatten. Google noemt bijvoorbeeld een Elo-score op de Artificial Analysis TTS leaderboard (en benadrukt prijs/kwaliteit), terwijl OpenAI in zijn post linkt naar audio-gerichte evaluaties. De onderliggende trend: voice AI wordt afgerekend op ‘task success’ en gesprekssamenhang, niet alleen op een mooie stem (zie o.a. Artificial Analysis).

Wat betekent dit voor gebruikers en bedrijven?

De praktische implicatie is dat ‘spraak’ steeds meer een productiviteitslaag wordt, net als chat. Denk aan: meertalige support die live vertaalt, meeting-notulen die meekomen met het gesprek, of een assistent die tijdens het praten afspraken plant.

Dat raakt aan iets waar Leon Tindemans, die organisaties begeleidt in AI-geletterdheid, regelmatig op wijst.

“Een spraakassistent klinkt al snel overtuigend, maar de echte vaardigheid zit erin dat je weet wanneer je hem mag vertrouwen en wanneer je zelf even meekijkt.” Leon Tindemans, AI-expert en Copilot- & ChatGPT-trainer

Voor AI-Feiten-lezers is dit ook een goed moment om onze eerdere stukken erbij te pakken:

Conclusie: de markt verschuift van ‘voice als interface’ naar ‘voice-to-action’. OpenAI bouwt aan een realtime stack (praten + vertalen + transcriberen + handelen), terwijl Google inzet op expressieve TTS met controle én watermarking. Voor wie voice in productie wil brengen, wordt de vraag steeds minder ‘kan het praten?’ en steeds meer: lost het taken betrouwbaar op, en kun je het auditen?