Lilith Lilith.
CS EN PL
Zacznij

Google ogłosił Gemini 3.5 Live Translate, model audio do live speech-to-speech translation. Według zapowiedzi automatycznie wykrywa ponad 70 języków, generuje tłumaczoną mowę w sposób ciągły i pozostaje tylko kilka sekund za mówcą.

Tłumaczenie przechodzi z czekania na zdanie do żywego strumienia mowy

Google podkreśla różnicę wobec systemów turn-by-turn, które czekają, aż mówca skończy wypowiedź. 3.5 Live Translate ma tłumaczyć ciągle, równoważąc potrzebę kontekstu z utrzymaniem synchronizacji.

Rollout jest podzielony kanałami. Developerzy dostają public preview przez Gemini Live API i Google AI Studio, firmy private preview w Google Meet od tego miesiąca, a zwykli użytkownicy rollout w Google Translate na Androidzie i iOS.

W Meet ważny jest skok z pięciu języków do tysięcy kombinacji

W Google Meet nowy model ma rozszerzyć speech translation z dotychczasowych pięciu języków do ponad 70 języków i ponad 2000 kombinacji językowych w jednym spotkaniu. Google zapowiada też łatwiejszy dostęp do funkcji w interfejsie.

To praktycznie ważniejsze niż samo demo. Żywe tłumaczenie w spotkaniu to nie tylko wygoda w podróży. To infrastruktura dla supportu, sprzedaży, edukacji i komunikacji wewnętrznej, gdzie język często decyduje, kto naprawdę uczestniczy.

Tłumaczenie głosowe niesie inne ryzyko niż tekst

Tłumaczenie tekstu można zatrzymać, przeczytać i poprawić. Błędy w żywym głosie rozchodzą się od razu i brzmią bardziej autorytatywnie, bo przychodzą jako rozmowa. Google wskazuje SynthID watermarking dla generowanego audio.

To użyteczny szczegół bezpieczeństwa, ale nie rozwiązuje wszystkiego. Firmy będą potrzebować logów, kontroli uprawnień, jasnych powiadomień dla uczestników i zasad dla sytuacji, gdzie zły przekład zmienia sens prawny albo medyczny.

Głośny pokój rozstrzygnie więcej niż demo ze studia

Następny test to środowiska, w których ludzie mówią jednocześnie, zmieniają języki, używają slangu i mają słaby mikrofon. Google deklaruje odporność na hałas, ale produkcyjne zaufanie powstanie dopiero w realnych rozmowach.

Tempo rolloutów też ma znaczenie. Public preview dla developerów i private preview dla klientów Workspace to nie to samo co stabilny standard enterprise dla każdego spotkania.

Werdykt Lilith

Tłumacz posadzony pośrod spotkania, któremu ludzie mogą zaufać, zanim dowiedzą się, kiedy się myli.

Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.

Oryginalne źródło ↗