Google lanceert Gemini 3.5 Live Translate: spraak-naar-spraak vertaling in 70+ talen (bijna realtime)

De stap van ‘ondertitels’ naar echte spraak-naar-spraak vertaling komt ineens heel dichtbij. Google heeft Gemini 3.5 Live Translate aangekondigd: een model dat gesproken taal kan omzetten naar een andere taal, met behoud van intonatie en spreektempo, in meer dan 70 talen. Google positioneert dit expliciet als een bouwsteen voor realtime gesprekken—bijvoorbeeld in vergaderingen, support en internationale samenwerking. (Google)

Wat vooral opvalt: Google spreekt niet alleen over vertaling, maar over natuurlijke conversatie—een richting die we ook zien bij ‘agentic’ workflows. Denk aan assistenten die niet alleen samenvatten, maar ook acties uitvoeren, zoals in ons artikel over agentic commerce via Visa en ChatGPT.

Wat is Gemini 3.5 Live Translate precies?

Volgens Google gaat het om een spraak-naar-spraak systeem dat live audio omzet naar een andere taal, waarbij het doel is dat het gesprek vloeiend blijft. Dat is iets anders dan klassieke vertaalapps die eerst tekst maken en daarna (soms met vertraging) weer audio genereren. Google noemt ondersteuning voor 70+ talen en legt nadruk op het ‘gespreksgevoel’: tempo en intonatie moeten beter blijven staan dan bij veel bestaande oplossingen. (Google)

Ars Technica wijst erop dat dit type technologie vooral waarde heeft als de latency laag genoeg blijft en de output niet ‘robotachtig’ wordt—want dan haakt een gesprek snel af. (Ars Technica)

Waarom dit nu ineens praktisch wordt

De afgelopen jaren gingen grote sprongen vooral over tekst (chat) en later over multimodaal (beeld, audio). Nu verschuift de aandacht naar directe interactie: praten, reageren, doorvragen—zonder dat de gebruiker telkens hoeft te typen. Dat maakt vertaling ineens veel relevanter voor dagelijks werk: internationale sales calls, onboarding, klantgesprekken of interne updates.

Voor organisaties heeft dit ook een governance-kant. Als een model live gesprekken bemiddelt, wil je grip op logging, privacy, en wie welke output heeft gehoord. Dat raakt aan dezelfde runtime-vraagstukken die we eerder bespraken in Agent Control Standard (ACS).

De ‘lastige’ kant: betrouwbaarheid, bias en compliance

Realtime vertaling klinkt magisch, maar het blijft AI: fouten, nuanceverlies en culturele missers zijn reëel—zeker bij vaktaal (juridisch, medisch, techniek). DeepMind publiceerde een model card voor Gemini 3.5 waarin ook aandacht is voor beperkingen en risico’s van generatieve output. (DeepMind)

Daarnaast wordt transparantie belangrijker richting de EU AI Act. Als AI de inhoud van communicatie beïnvloedt—zeker extern—wil je kunnen uitleggen dat er AI tussen zat en hoe je dat beheerst. Zie ook onze uitleg over de nieuwe EU-richtlijn in de praktijk: de code of practice voor AI-labeling.

Wat betekent dit (concreet) voor teams?

Drie praktische takeaways:

Test met echte gesprekken (eigen jargon, accenten, ruis) voordat je dit in productie zet—zeker voor support.
Maak afspraken over ‘human in the loop’ voor kritieke context: contracten, incidenten, HR, medische info.
Let op data en infrastructuur: live audio betekent vaak meer cloudverkeer en rekenwerk. Infrastructuur-impact is een steeds groter thema, zie onze analyse over watergebruik en AI-datacenters.

Bottom line: als de kwaliteit en latency kloppen, kan spraak-naar-spraak vertaling de drempel voor internationale samenwerking flink verlagen. Maar ‘live’ betekent ook: minder tijd om fouten te corrigeren—dus governance en kwaliteitschecks worden juist belangrijker.