Gemini 3.5 Live Translate przesuwa tłumaczenie głosu kilka sekund za mówcę | Radar

Google ogłosił Gemini 3.5 Live Translate do niemal real-time voice-to-voice translation w ponad 70 językach. Praktyczne pytanie dotyczy nie tylko jakości tłumaczenia, ale też latencji, stabilności głosu, dostępności w Meet i odpowiedzialności za błąd w rozmowie na żywo.

Google traktuje tłumaczenie jak ciągły strumień audio, nie serię zdań

Google 9 czerwca 2026 roku przedstawił Gemini 3.5 Live Translate, model audio do near real-time speech-to-speech translation w ponad 70 językach. Model ma automatycznie wykrywać język i generować przetłumaczony głos, zachowując intonację, tempo i wysokość głosu mówcy.

Różnica wobec tradycyjnych systemów polega na ciągłości. Google twierdzi, że model nie czeka na koniec całego zdania, tylko przetwarza stream i zostaje zaledwie kilka sekund za mówcą.

Dostępność jest warstwowa. Deweloperzy mają public preview przez Gemini Live API i Google AI Studio, Google Translate obsługuje funkcję na Androidzie i iOS, a Google Meet zaczyna od private preview dla wybranych klientów Workspace. Model card podaje kontekst audio do 128K tokenów i wyjście do 64K tokenów.

Tłumaczenie głosu zmienia się z dodatku w infrastrukturę spotkań

Dla firm to ważniejsze niż kolejna funkcja w Translate. Jeśli tłumaczenie na żywo trafi do Meet, call center, edukacji, podróży i broadcastu, zacznie wpływać na to, kto może uczestniczyć w rozmowie bez ludzkiego tłumacza.

Google pokazuje Grab jako partnera. Według ogłoszenia użytkownicy Grab wykonują ponad 10 milionów połączeń głosowych miesięcznie, a firma testuje tłumaczenie między kierowcami i podróżnymi. To dokładnie takie środowisko, w którym kilka sekund opóźnienia i źle rozpoznany akcent nie są kosmetyką.

Dla zespołów produktowych kluczowy będzie UI. Tłumaczenie w czasie rzeczywistym musi pokazywać niepewność, zmianę języka, tożsamość mówcy i fakt, że audio wygenerował model. Inaczej wygoda stanie się źródłem pomyłek.

Model card przyznaje problemy, które demo łatwo ukrywa

Google w model card wymienia ograniczenia warte uwagi. Głos może dryfować po dłuższych pauzach, zmienić gender albo zablokować się na jednym głosie podczas szybkiej rozmowy wielu osób. Detekcja języka może mieć problem z nienatywnymi akcentami, podobnymi językami i szybkim przełączaniem.

To są produkcyjne krawędzie, nie akademickie przypisy. W negocjacjach biznesowych, konsultacji medycznej albo lekcji błędne tłumaczenie może brzmieć pewnie, a jednocześnie przesunąć sens.

Hałas, akcenty i odpowiedzialność pokażą, czy system nadaje się do świata

Następne sygnały przyjdą poza demem: głośna taksówka, spotkanie pięciu osób, słaby mikrofon, code-switching i prawnie wrażliwa rozmowa. Jeśli system poradzi sobie z tymi przypadkami z widoczną niepewnością i dobrym loggingiem, stanie się realną infrastrukturą.

Znaczenie ma też SynthID watermarking dla generowanego audio oraz zasady przechowywania danych przez API. Tłumaczenie głosu to nie tylko tekst. Tożsamość, zgoda i zapis tego, co ktoś rzekomo powiedział, wchodzą tu do tej samej rozmowy.

Werdykt Lilith

Live Translate stawia w pokoju niewidzialnego tłumacza, który mówi kilka sekund po tobie. Piękne, dopóki hałas nie podsunie mu złego głosu, języka albo zdania, na podstawie którego ktoś podejmie decyzję.