2026-06-09 · ← Radar
Gemini 3.5 Live Translate posouvá překlad hlasu na pár sekund za mluvčího
Google oznámil Gemini 3.5 Live Translate pro téměř real-time voice-to-voice překlad ve více než 70 jazycích. Praktická otázka zahrnuje kvalitu překladu, latenci, stabilitu hlasu, dostupnost v Meetu a odpovědnost za chybu v živém hovoru.
Google staví překlad jako kontinuální audio stream, ne jako větu po větě
Google 9. června 2026 představil Gemini 3.5 Live Translate, audio model pro near real-time speech-to-speech překlad ve více než 70 jazycích. Model má automaticky detekovat jazyk a generovat přeložený hlas, který zachovává intonaci, tempo a výšku hlasu mluvčího.
Rozdíl proti tradičním systémům je v průběžnosti. Google tvrdí, že model nečeká na konec celé věty, ale zpracovává stream a zůstává jen několik sekund za mluvčím.
Dostupnost je vícestupňová. Vývojáři mají public preview přes Gemini Live API a Google AI Studio, Google Translate má podporu na Androidu a iOS a Google Meet začíná v private preview pro vybrané Workspace zákazníky. Model card uvádí audio kontext až 128K tokenů a výstup až 64K tokenů.
Hlasový překlad se z pomůcky mění v infrastrukturu schůzek
Pro firmy je to důležitější než další funkce v překladači. Pokud se živý překlad dostane do Meetu, call center, výuky, cestování a broadcastu, začne ovlivňovat, kdo se může účastnit schůzky bez tlumočníka.
Google ukazuje Grab jako partnera. Podle oznámení mají uživatelé Grab přes 10 milionů hlasových hovorů měsíčně a firma testuje překlad mezi řidiči a cestujícími. To je přesně typ provozu, kde pár sekund latence a špatně zachycený přízvuk nejsou kosmetika.
Pro produktové týmy bude klíčové UI. Překlad v reálném čase musí ukázat, kdy si není jistý, kdy se přepnul jazyk, kdo právě mluví a jestli audio pochází z modelu. Jinak se z pohodlí stane zdroj omylů.
Model card přiznává problémy, které v demu snadno zmizí
Google v model card uvádí limity, které stojí za pozornost. Hlas se může při delších pauzách posouvat, měnit gender nebo se zaseknout na jednom hlasu při rychlé konverzaci více mluvčích. Detekce jazyka může mít potíže s ne-nativními přízvuky, podobnými jazyky a rychlým přepínáním.
Tohle jsou produkční hrany, ne akademické detaily. V obchodním jednání, lékařské konzultaci nebo školní výuce může chybný překlad znít sebevědomě a přitom posunout význam.
Rozhodne chování v hluku, v akcentu a pod odpovědností
Další signály budou mimo demo: hlučný taxík, meeting s pěti lidmi, špatný mikrofon, code-switching a právně citlivá konverzace. Pokud systém zvládne tyhle situace s viditelnou nejistotou a dobrým loggingem, bude to reálná infrastruktura.
Sledovat je potřeba i SynthID watermarking pro modelové audio a pravidla ukládání dat přes API. U překladu hlasu nejde jen o text. Jde o identitu, souhlas a záznam toho, co kdo údajně řekl.
Lilithin verdikt
Live Translate dává do místnosti neviditelného tlumočníka, který mluví pár sekund po vás. Krásné, dokud si v hluku nesplete hlas, jazyk nebo větu, podle které někdo udělá rozhodnutí.
Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.
Původní zdroj ↗ ↗