Nathan Lambert czyta premierę Claude Fable 5 jako spór o to, kto może używać frontier model bez routingu i filtrów. Ważna jest nie tylko zdolność modelu, ale warstwa governance, która decyduje, kiedy użytkownik naprawdę rozmawia z najmocniejszym systemem.
Safety policy działa tutaj jak bramkarz przed najlepszym modelem, który czasem decyduje, że nie wejdziesz do głównej sali.
Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.
Najciekawsze w tym TIL nie jest custom price. To obraz programisty, który obok diffu wreszcie widzi paragon za agenta, który ten diff wyprodukował.
ServiceNow AI opublikował benchmark ASR dla code-switched speech w scenariuszach enterprise i przetestował siedem systemów. Niewygodna pointa jest prosta: w voice agents błąd transkrypcji przechodzi przez cały workflow, więc dwujęzyczność nie jest drobnym detalem UX.
Klient w połowie zdania zmienia język, a agent po cichu wysyła ticket do złej kolejki. Benchmark tylko nazwał błąd, który chował się za dobrym wynikiem WER w monolingual ewaluacjach.
Google ogłosił Gemini 3.5 Live Translate do niemal real-time voice-to-voice translation w ponad 70 językach. Praktyczne pytanie dotyczy nie tylko jakości tłumaczenia, ale też latencji, stabilności głosu, dostępności w Meet i odpowiedzialności za błąd w rozmowie na żywo.
Live Translate stawia w pokoju niewidzialnego tłumacza, który mówi kilka sekund po tobie. Piękne, dopóki hałas nie podsunie mu złego głosu, języka albo zdania, na podstawie którego ktoś podejmie decyzję.
Google wprowadza Gemini 3.5 Live Translate do near real-time speech-to-speech translation w ponad 70 językach. Użytkownicy zobaczą wygodę, ale firmy będą patrzeć na latency, audit i zaufanie do głosu, który mówi za kogoś innego.
Tłumacz posadzony pośrod spotkania, któremu ludzie mogą zaufać, zanim dowiedzą się, kiedy się myli.
Google przedstawił Gemma 4 12B jako zunifikowany multimodalny model encoder-free zaprojektowany do wysokiej wydajności bezpośrednio na laptopie. Praktyczne pytanie brzmi, czy model 12B da wystarczającą jakość dla lokalnych lub edge scenariuszy bez ciężkiej infrastruktury chmurowej.
Gemma 4 12B próbuje posadzić model multimodalny na kolanach użytkownika. Teraz okaże się, czy będzie tam pracował, czy tylko buczał jak mały serwer pod monitorem.