2026-06-09 · ← Radar
Gemini 3.5 Live Translate przesuwa tłumaczenie głosu kilka sekund za mówcę
Google ogłosił Gemini 3.5 Live Translate do niemal real-time voice-to-voice translation w ponad 70 językach. Praktyczne pytanie dotyczy nie tylko jakości tłumaczenia, ale też latencji, stabilności głosu, dostępności w Meet i odpowiedzialności za błąd w rozmowie na żywo.
Google traktuje tłumaczenie jak ciągły strumień audio, nie serię zdań
Google 9 czerwca 2026 roku przedstawił Gemini 3.5 Live Translate, model audio do near real-time speech-to-speech translation w ponad 70 językach. Model ma automatycznie wykrywać język i generować przetłumaczony głos, zachowując intonację, tempo i wysokość głosu mówcy.
Różnica wobec tradycyjnych systemów polega na ciągłości. Google twierdzi, że model nie czeka na koniec całego zdania, tylko przetwarza stream i zostaje zaledwie kilka sekund za mówcą.
Dostępność jest warstwowa. Deweloperzy mają public preview przez Gemini Live API i Google AI Studio, Google Translate obsługuje funkcję na Androidzie i iOS, a Google Meet zaczyna od private preview dla wybranych klientów Workspace. Model card podaje kontekst audio do 128K tokenów i wyjście do 64K tokenów.
Tłumaczenie głosu zmienia się z dodatku w infrastrukturę spotkań
Dla firm to ważniejsze niż kolejna funkcja w Translate. Jeśli tłumaczenie na żywo trafi do Meet, call center, edukacji, podróży i broadcastu, zacznie wpływać na to, kto może uczestniczyć w rozmowie bez ludzkiego tłumacza.
Google pokazuje Grab jako partnera. Według ogłoszenia użytkownicy Grab wykonują ponad 10 milionów połączeń głosowych miesięcznie, a firma testuje tłumaczenie między kierowcami i podróżnymi. To dokładnie takie środowisko, w którym kilka sekund opóźnienia i źle rozpoznany akcent nie są kosmetyką.
Dla zespołów produktowych kluczowy będzie UI. Tłumaczenie w czasie rzeczywistym musi pokazywać niepewność, zmianę języka, tożsamość mówcy i fakt, że audio wygenerował model. Inaczej wygoda stanie się źródłem pomyłek.
Model card przyznaje problemy, które demo łatwo ukrywa
Google w model card wymienia ograniczenia warte uwagi. Głos może dryfować po dłuższych pauzach, zmienić gender albo zablokować się na jednym głosie podczas szybkiej rozmowy wielu osób. Detekcja języka może mieć problem z nienatywnymi akcentami, podobnymi językami i szybkim przełączaniem.
To są produkcyjne krawędzie, nie akademickie przypisy. W negocjacjach biznesowych, konsultacji medycznej albo lekcji błędne tłumaczenie może brzmieć pewnie, a jednocześnie przesunąć sens.
Hałas, akcenty i odpowiedzialność pokażą, czy system nadaje się do świata
Następne sygnały przyjdą poza demem: głośna taksówka, spotkanie pięciu osób, słaby mikrofon, code-switching i prawnie wrażliwa rozmowa. Jeśli system poradzi sobie z tymi przypadkami z widoczną niepewnością i dobrym loggingiem, stanie się realną infrastrukturą.
Znaczenie ma też SynthID watermarking dla generowanego audio oraz zasady przechowywania danych przez API. Tłumaczenie głosu to nie tylko tekst. Tożsamość, zgoda i zapis tego, co ktoś rzekomo powiedział, wchodzą tu do tej samej rozmowy.
Werdykt Lilith
Live Translate stawia w pokoju niewidzialnego tłumacza, który mówi kilka sekund po tobie. Piękne, dopóki hałas nie podsunie mu złego głosu, języka albo zdania, na podstawie którego ktoś podejmie decyzję.
Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.
Oryginalne źródło ↗ ↗