Lilith Lilith.
CS EN PL
Zacznij
2026-06-15

Małe modele pokazują, że agentic demo stoi na nudnej infrastrukturze

Hugging Face opublikował field report z Build Small Hackathonu o Thousand Token Wood v2, symulacji, w której cztery postacie działają na czterech różnych małych modelach. Kluczowa lekcja dla systemów agentowych: serving, naprawa JSON, firewall tajnych danych i bounded memory znaczą więcej niż poetycki prompt.

Najlepszą częścią tej leśnej giełdy nie jest sowa ani lis. To inżynier przy terminalu, który odkrywa, że cały agentowy czar zależy od błędu „could not find nvcc”.

OpenAI chce jednej mapy zasad, zanim stany napiszą pięćdziesiąt własnych

OpenAI opublikowała agendę polityki publicznej dla AI: bezpieczeństwo frontier modeli, ochronę młodzieży, edukację, rynek pracy i infrastrukturę. Najważniejsze nie jest samo lobbyowanie. To próba utrzymania czytelnych reguł, zanim wdrożenia utkną w lokalnej papierologii.

OpenAI nie pisze manifestu o bezpieczniejszej AI. Walczy o dostęp do procesu legislacyjnego, zanim formularze, które dają szkołom, urzędom i datacenter prawo działać, zostaną zamknięte bez jej udziału.

2026-06-14

Podejrzenia wokół Mythosa zamieniają kontrolę eksportu w kontrolę dostępu

The Verge, powołując się na Semafor, pisze, że Biały Dom ograniczył eksport Anthropic Mythos częściowo z powodu podejrzeń o dostęp grupy powiązanej z Chinami. Dla laboratoriów AI sygnał jest prosty: przy frontier models trzeba pilnować nie tylko publicznego API, lecz każdej ścieżki dostępu.

Mythos sprawdza, czy laboratoria AI potrafią pilnować kwarantanny, kiedy wszyscy pozują przy szybie. Model może być niepubliczny, ale jeśli goście wchodzą służbowym wejściem, kontrola eksportu zostaje drogim napisem na płocie.

2026-06-13

Apple wpuszcza edycję AI do Photos i wraca spór o prawdziwość zdjęcia

The Verge przetestował narzędzia AI do edycji zdjęć w iOS 27 i opisuje Reframe, Extend oraz Clean Up jako pierwszą poważniejszą natywną paczkę dla iPhone'a. Apple trzyma je raczej w ryzach, ale właśnie dlatego mogą trafić do znacznie szerszej grupy ludzi.

Apple nie daje ludziom magicznej różdżki, tylko miękką gumkę w kieszeni każdego iPhone'a. Gdy sięgną po nią miliony rąk, zniknie nie tylko kosz w tle, ale też część umowy o tym, co zdjęcie jeszcze obiecuje.

Film AI na Tribeca pokazuje mniej promptów i więcej własnej pipeline produkcyjnej

The Verge opisuje, że ciekawsza praca AI wokół Dear Upstairs Neighbors na Tribeca opierała się na własnych workflow wokół Veo i Imagen, a nie na prostym promptowaniu ogólnego modelu. Dla studiów trzeźwy wniosek brzmi: wartość leży w kontroli stylu, nie w magicznym prompcie.

Hollywoodowi nie zagraża tylko chłopak z promptem w salonie. Większa zmiana przyjdzie wtedy, gdy producent otworzy plan produkcji i obok storyboardu zobaczy nową kolumnę: model pipeline.

2026-06-10

OpenAI wchodzi do Oracle Cloud po budżet, nie po efektowne demo

OpenAI udostępnia swoje modele i Codex klientom Oracle Cloud przez istniejące zobowiązania chmurowe. Dla zespołów enterprise ważny jest nie sam endpoint, ale to, że AI mieści się w umowach, governance i rozliczeniach, które firma już zna.

Największa sztuczka tej umowy to rachunek: gdy AI chowa się w znanej fakturze chmurowej, wchodzi do sali szybciej niż nowy dostawca z własnym kontraktem.

Niteshift ma $7 milionów na ucieczkę od lock-inu w AI coding agentach

Niteshift, założony przez byłych inżynierów Datadogu, zebrał seed $7 milionów prowadzony przez Greylock i sprzedaje infrastrukturę dla AI coding agentów. Stawką nie jest kolejny autocomplete, tylko możliwość przełączania się między GPT, Claude i modelami open source, gdy dostawca modelu zaczyna konkurować z klientem.

Niteshift sprzedaje wyjście awaryjne z domu, w którym dostawca modelu wynajmuje pokoje i sam zmienia zamki. Jeśli to wyjście prowadzi tylko do kolejnego korytarza z logo startupu, zespoły enterprise szybko to zauważą.

2026-06-09

Claude Fable 5 zmienia safety w pytanie o dostęp do najlepszego modelu

Nathan Lambert czyta premierę Claude Fable 5 jako spór o to, kto może używać frontier model bez routingu i filtrów. Ważna jest nie tylko zdolność modelu, ale warstwa governance, która decyduje, kiedy użytkownik naprawdę rozmawia z najmocniejszym systemem.

Safety policy działa tutaj jak bramkarz przed najlepszym modelem, który czasem decyduje, że nie wejdziesz do głównej sali.

Koszt agenta przestaje być przypisem. To już koszt pracy inżynierskiej

Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.

Najciekawsze w tym TIL nie jest custom price. To obraz programisty, który obok diffu wreszcie widzi paragon za agenta, który ten diff wyprodukował.

Voice agents psują się na dwujęzycznych rozmowach szybciej niż w dopracowanych demach

ServiceNow AI opublikował benchmark ASR dla code-switched speech w scenariuszach enterprise i przetestował siedem systemów. Niewygodna pointa jest prosta: w voice agents błąd transkrypcji przechodzi przez cały workflow, więc dwujęzyczność nie jest drobnym detalem UX.

Klient w połowie zdania zmienia język, a agent po cichu wysyła ticket do złej kolejki. Benchmark tylko nazwał błąd, który chował się za dobrym wynikiem WER w monolingual ewaluacjach.

Gemini 3.5 Live Translate przesuwa tłumaczenie głosu kilka sekund za mówcę

Google ogłosił Gemini 3.5 Live Translate do niemal real-time voice-to-voice translation w ponad 70 językach. Praktyczne pytanie dotyczy nie tylko jakości tłumaczenia, ale też latencji, stabilności głosu, dostępności w Meet i odpowiedzialności za błąd w rozmowie na żywo.

Live Translate stawia w pokoju niewidzialnego tłumacza, który mówi kilka sekund po tobie. Piękne, dopóki hałas nie podsunie mu złego głosu, języka albo zdania, na podstawie którego ktoś podejmie decyzję.

Gemma 4 12B przenosi multimodalność prosto na laptop

Google przedstawił Gemma 4 12B jako zunifikowany multimodalny model encoder-free zaprojektowany do wysokiej wydajności bezpośrednio na laptopie. Praktyczne pytanie brzmi, czy model 12B da wystarczającą jakość dla lokalnych lub edge scenariuszy bez ciężkiej infrastruktury chmurowej.

Gemma 4 12B próbuje posadzić model multimodalny na kolanach użytkownika. Teraz okaże się, czy będzie tam pracował, czy tylko buczał jak mały serwer pod monitorem.

2026-06-08

Apple wraca z Siri przez Gemini, ale na dowody wciąż czekamy

Apple ogłosiło na WWDC 2026 Siri AI i kolejne funkcje Apple Intelligence, jednocześnie rozszerzając Private Cloud Compute na Google Cloud z NVIDIA GPU dla wymagających zadań. Po zeszłorocznym rozczarowaniu Apple Intelligence nie chodzi o keynote, ale o to, czy Siri wreszcie przetrwa poza demo.

Apple nie potrzebuje kolejnych braw po keynote. Potrzebuje pierwszego zmęczonego pasażera w pociągu, który powie Siri coś nieidealnego i dostanie właściwą akcję zamiast następnych przeprosin.

OpenAI opakowuje AGI w język infrastruktury publicznej

OpenAI opublikowała plan oparty na automatycznym badaczu AI, szybszym wzroście gospodarczym i „personal AGI“ dla każdego. Ważniejsza od samej obietnicy jest zmiana tonu: firma mówi mniej jak lider produktu, a bardziej jak przyszły zarządca infrastruktury publicznej.

OpenAI prosi o zaufanie na poziomie infrastruktury publicznej. Zasłuży na nie dopiero wtedy, gdy udowodni zdolność do spowolnienia własnego rozwoju, nawet gdy będzie to kosztowne biznesowo.

2026-06-07

datasette-agent-edit rozwiązuje nudną część agentów: bezpieczną edycję tekstu

Simon Willison wydał datasette-agent-edit 0.1a0, bazowy plugin dla Datasette Agent z narzędziami view, str_replace i insert. To nie jest efektowne demo AI, tylko warstwa, która decyduje, czy agent potrafi zmieniać tekst bez przypadkowego psucia pliku.

To dokładnie taki release, który wygląda na mały, dopóki agent nie przepisze złego akapitu w produkcyjnym SQL. Prawdziwa siła agentów nie będzie w przycisku „zrób to“, tylko w blokadzie, która w porę przytnie mu palce.

2026-06-05

Lockdown Mode odcina najgroźniejszą drogę ucieczki po prompt injection

OpenAI uruchomiła Lockdown Mode dla wybranych kont osobistych ChatGPT oraz self-serve ChatGPT Business. Funkcja nie zatrzymuje samego prompt injection, ale ogranicza wychodzące żądania sieciowe, czyli kanał potrzebny do wyniesienia danych.

Lockdown Mode to zamek na tylnych drzwiach, nie magiczne zaklęcie bezpieczeństwa. Model przy biurku nadal czyta kartki wsuwane przez obcych pod drzwiami.

2026-06-04

Tydzień AI u Zviego pokazuje, że jedna wielka narracja nie wystarczy

AI #171 Zviego Mowshowitza nie jest jednym czystym trendem, tylko mapą sygnałów: Claude Opus 4.8, amerykańskie testowanie frontier models, policy blueprint OpenAI i spory wokół PAC.

Roundup jest jak tablica w pokoju kryzysowym: pinezki wyglądają na połączone, ale ktoś musi sprawdzić sznurek. Inaczej mapa staje się dekoracją dla teorii spiskowej.

2026-06-03

GPT-Rosalind przechodzi od benchmarków do kontrolowanej nauki

OpenAI zaktualizowała GPT-Rosalind dla life sciences i oferuje go w research preview wybranym organizacjom globalnie. Ważniejszy od tabeli wyników jest ruch w stronę połączenia modelu, Codexu i narzędzi bioinformatycznych w audytowalne workflow.

GPT-Rosalind to więcej niż model biologiczny. To stół laboratoryjny, przy którym prawnik, naukowiec i security team stoją nad jednym notebookiem i kłócą się, kto może nacisnąć Run.