8x8 AI Studio krijgt GPT Realtime 2: voice agents worden betrouwbaarder (en transcripties schoner)

Voice agents schuiven een stap dichter naar “productie-stand”. 8×8 meldt dat het in 8×8 AI Studio ondersteuning toevoegt voor OpenAI’s GPT Realtime 2, bedoeld voor live spraakassistenten die tijdens een gesprek ook tools kunnen aanroepen (denk: een afspraak inplannen of een dossier opzoeken). Volgens het bedrijf is de update per direct beschikbaar voor klanten in de early availability. (Business Wire via Yahoo Finance)

Wat is er nieuw: GPT Realtime 2 + Realtime-Whisper

In de aankondiging benadrukt 8×8 vooral drie verbeteringen: betrouwbaardere “tool calling”, sterkere redeneercapaciteit en schonere transcripties. De nieuwe setup combineert:

GPT Realtime 2 voor spraak-naar-spraak interactie met extra focus op het goed uitvoeren van acties (zoals doorverbinden, informatie ophalen of boeken).
Realtime-Whisper als standaard transcriptielaag, zodat het call-log en de live ‘advisor’-interface minder ruis bevatten.

Die combinatie past precies in hoe OpenAI de Realtime-architectuur positioneert: gpt-realtime-2 voor low-latency voice agents en gpt-realtime-whisper voor streaming transcriptie. (OpenAI: Realtime and audio)

Waarom dit ertoe doet voor contactcenters (betrouwbaarheid & audits)

De “wow-factor” van een pratende agent is al langer haalbaar, maar in echte customer support gaat het om consistentie: raakt de agent context kwijt, doet hij de juiste lookup, en is er achteraf een bruikbaar transcript voor QA en compliance? 8×8 stelt dat GPT Realtime 2 een 128K context window meebrengt en “GPT-5-class reasoning” inzet om langere, complexere gesprekken beter te volgen, met minder gemiste acties. (Business Wire via Yahoo Finance)

Dat sluit aan bij een bredere trend die we eerder zagen: AI-functies verschuiven van “handig extraatje” naar een laag die werkprocessen stuurt. Vergelijk het met hoe browsers AI steeds meer in de workflow trekken (zoals bij Copilot Journeys in Edge), of hoe OS-integratie de standaard wordt (zoals bij Gemini op Android).

Nieuwe knop: “reasoning effort” per agent (snel vs. grondig)

Een opvallend detail uit de release: teams krijgen een per-agent ‘reasoning effort’-instelling. In de praktijk is dat een simpele, maar belangrijke productkeuze: sommige gesprekken vragen vooral snelheid (bijv. status-check), andere vragen grondigheid (bijv. multi-step verificatie + case-escalatie). 8×8 zegt dat je die balans kunt tunen, met als trade-off extra responstijd bij zwaarder redeneren. (Business Wire via Yahoo Finance)

Voor wie dit wil duiden in breder agent-denken: het lijkt op het verschil tussen “snelle assistent” en “agent die mag handelen”. Daar komen direct vragen bij over logging, toestemming en begrenzing — thema’s die we ook benoemden bij coding agents in de browser en bij AI in workflows.

Wat betekent dit (concreet) als je nu voice agents bouwt?

Voor productteams is dit vooral een signaal dat voice stacks meer “modulair” worden: een model voor realtime gesprek, een model voor transcriptie, en een laag die tools (CRM, planning, routering) betrouwbaar aanroept. OpenAI beschrijft Realtime-sessies expliciet als de route voor low-latency voice agents. (OpenAI modelkaart: gpt-realtime-2)

Voor organisaties is de belangrijkste vraag niet “kan het praten?”, maar: kun je het beheren? Dus: meet je foutpercentages op tool-calls, heb je escalatie naar humans, en kun je auditbaar vastleggen wat er gezegd en gedaan is. Als de beloofde betrouwbaarheid en transcriptkwaliteit in de praktijk klopt, wordt het veel makkelijker om voice agents te schalen naar echte klantcontacten — en dat is precies waar de markt nu naartoe beweegt.

Meer context: eerder schreven we al over OpenAI’s Realtime voice-modellen en use-cases voor live vertaling en transcriptie in de API. Zie OpenAI zet in op realtime spraak-AI.