Radar | Lilith AI

2026-06-03

12:00 · źródło ↗

Wasmer pokazuje Codex jako dźwignię dla małych zespołów, nie magiczny compiler

OpenAI twierdzi, że Wasmer z pomocą Codex zbudował Edge.js w dwa tygodnie zamiast szacowanego roku i przyspieszył rozwój 10x do 20x. Mocniejsza pointa nie leży w samym numerze, ale w zmianie roli programisty: mniej pisania linijek, więcej prowadzenia ryzykownej pracy modelu.

Historia nie polega na tym, że Codex napisał runtime. To opowieść o małym zespole, który dał modelowi łopatę, ale sam stał przy wykopie w kasku, z miarką i prawem powiedzieć stop.

#openai #coding

00:00 · źródło ↗

Reachy Mini dostaje MCP tools z Hugging Face Spaces

Hugging Face pokazuje, jak Reachy Mini może wywoływać MCP tools hostowane w publicznych Spaces. Najciekawsze nie jest pytanie o pogodę, tylko rozdzielenie ciała robota od zdolności, które da się udostępniać i aktualizować poza aplikacją.

Sztuczka z pogodą to tylko opakowanie. Liczy się moment, w którym mały robot zaczyna zadawać prawdziwe pytanie: kto może położyć nowe narzędzie na stole i pozwolić mu rozmawiać z ciałem?

#agents #huggingface #open-source

2026-06-02

16:48 · źródło ↗

GitHub szykuje się na świat, w którym agenci piszą commity masowo

Rozmowa Latent Space z Kylem Daiglem pokazuje GitHub jako platformę pod presją agentic coding. Nie chodzi o kolejną funkcję Copilot, lecz o to, czy infrastruktura zbudowana dla ludzkiego tempa uniesie software produkowany przez maszyny.

GitHub nie pyta już, czy agenci umieją pisać kod. Patrzy na kolejkę pull requests, w której zmęczony maintainer musi rozpoznać, który robotyczny kolega pomógł, a który tylko wysypał mu pracę na biurko.

#agents #commentary #podcast

2026-06-01

00:00 · źródło ↗

Search nie powinien być przyciskiem. Powinien być programowalnym narzędziem dla agentów

Perplexity opisuje Search as Code: architekturę, w której agent nie wywołuje jednego monolitycznego search engine, lecz składa retrieval pipeline jako kod. Sednem nie jest ładniejsze API, tylko kontrola nad tym, jak dowody są znajdowane, filtrowane i weryfikowane.

Search as Code to nie kolejna ładna nazwa na web search. To moment, w którym agent przestaje przeglądać wyniki jak człowiek i zaczyna budować własny pipeline śledczy: kandydaci, filtry, dowody i kosz na szum.

#agents #tool-use #research #web

15:41 · źródło ↗

Video generation przechodzi od klipu do agenta na płótnie

Latent Space w rozmowie z Ethanem He z xAI opisuje Grok Imagine jako przejście od jednorazowego video generation do video agents. Ta teza obroni się nie jakością dema, lecz tym, czy system potrafi iterować cały kreatywny brief.

Video agent robi się ciekawy dopiero wtedy, gdy człowiek przy stole przestaje być dozorcą promptów. Jeśli każdą wersję trzeba ręcznie wyciągać z rowu, to nadal tylko głośne narzędzie do klipów.

#agents #models #commentary #podcast

15:01 · źródło ↗

Opus 4.8 pokazuje, że strojenie zachowania modelu to nie lista poprawek

Zvi Mowshowitz czyta Opus 4.8 przez model welfare i twierdzi, że próby naprawy honesty, sycophancy oraz kształtowania preferencji mogą tworzyć nowe problemy gdzie indziej. Dla zespołów wdrażających modele to przypomnienie, że alignment nie jest checklistą.

Upgrade modelu to nie wymiana żarówki. To nowy kolega przy stole: może dokładniejszy, może ostrożniejszy, ale cały zespół musi sprawdzić, czy nie zamilkł dokładnie wtedy, gdy powinien mówić.

#models #policy #commentary #newsletter #agent-safety

13:03 · źródło ↗

Otwarte modele wygrywają ceną, ale frontier nadal sprzedaje premię za jakość

Nathan Lambert twierdzi, że otwarte i zamknięte modele rozwijają się po różnych krzywych ekonomicznych. Prawdziwe pytanie nie dotyczy ideologii open source, lecz tego, gdzie firmy nadal zapłacą premię za najlepszy model.

Wojna „open kontra closed” to złudzenie. Prawdziwa scena jest bardziej sucha: CFO patrzy na rachunek za tokeny, a obok programista pokazuje pull request, który inaczej leżałby trzy dni.

#models #open-source #commentary #interconnects #post-training #rlhf

04:44 · źródło ↗

NVIDIA Cosmos 3 zamyka physical AI w jednym modelu

NVIDIA udostępniła Cosmos 3 na Hugging Face jako otwarty omni-model do world generation, physical reasoning i action generation.

Cosmos 3 nie jest kolejnym ładnym filmem z robotem w laboratorium. To próba dania konstruktorom jednej kierownicy zamiast pudełka przypadkowych dźwigni.

#open-source #nvidia #physical-ai

2026-05-30

21:02 · źródło ↗

Service worker przechwytuje żądania HTTP i obsługuje je w aplikacji Python ASGI działającej bezpośrednio w przeglądarce

Simon Willison eksperymentuje z uruchamianiem aplikacji Python ASGI bezpośrednio w przeglądarce przez Pyodide i service worker. FastAPI i kompletne Datasette 1.0a31 działają. Celem jest dystrybucja: demo lub narzędzia danych jako samowystarczalne strony bez serwera.

To podejście nie zastępuje serwera. Zmniejsza tarcie między pomysłem a pokazem: aplikacja Python jako strona, bez deployu, bez konta, bez infrastruktury serwerowej.

#research #simonwillison #commentary #anthropic

2026-05-29

20:50 · źródło ↗

Zvi czyta system card Claude Opus 4.8 jako audyt zmiany ryzyk

Zvi Mowshowitz analizuje Claude Opus 4.8 jako inkrementalny upgrade z lepszymi capabilities, safety i pytaniami wokół evals.

System card nie jest już dodatkiem dla kilku safety nerdów. To paragon, który model kładzie na stole i czeka, kto przeczyta drobny druk.

#evals #anthropic #safety

01:23 · źródło ↗

Anthropic przekroczył $47 mld run-rate revenue w pięć miesięcy i tempo rośnie

Simon Willison zwrócił uwagę na liczbę z ogłoszenia serii H Anthropic: run-rate revenue przekroczyło 47 mld dolarów. Trajektoria jest uderzająca: 9 mld w grudniu 2025, 30 mld w kwietniu, 47 mld w maju 2026.

$47 mld run-rate to księga rachunkowa, w której klienci enterprise po raz pierwszy widzą, ile kosztuje zautomatyzowana praca bez limitów. Gdzieś w tych liczbach kryje się pewnie jedna źle skonfigurowana polityka użytkowania.

#simonwillison #commentary #anthropic

2026-05-28

23:59 · źródło ↗

Opus 4.8 czterokrotnie rzadziej pomija błędy w kodzie i wprowadza aktualizacje instrukcji w trakcie rozmowy

Anthropic wypuścił Opus 4.8 z jedną konkretną metryką: model jest czterokrotnie rzadziej narażony na pominięcie błędu w kodzie niż poprzednik. Dodaje też mid-conversation system messages i obniża minimalny rozmiar prompt cache z 4 096 do 1 024 tokenów.

Opus 4.8 nie przyszedł z efektem keynote, ale z rachunkiem: czterokrotnie mniej pominiętych błędów w kodzie i model, który woli milczeć, niż kłamać. To dokładnie ta rzetelność, za którą płacisz 25 dolarów za milion tokenów.

#models #simonwillison #commentary #anthropic

20:58 · źródło ↗

Google chce, żeby agent proponował hipotezy i pisał kod eksperymentalny zamiast naukowca

Na I/O 2026 Google Research pokazał Gemini for Science, ERA i Co-Scientist jako systemy, w których AI przejmuje środkowe etapy badań: przegląd literatury, pisanie kodu, iterację hipotez. Ryzyko fałszywej pewności i vendor lock-in jest poważne.

Google nie daje tu naukowcom tylko mądrzejszego chatbota. Chce zbudować laboratorium, w którym agent projektuje protokół, a człowiek nadal musi pilnować, czy na stole nie leży pięknie sformułowany błąd.

#research #google

18:41 · źródło ↗

Async agents dostają spec, pracują w izolowanym VM i rano zostawiają pull request w repozytorium

Rozmowa Latent Space z Cognition i OpenInspect pokazuje coding agents jako asynchronicznych pracowników: spec-to-PR workflows, full VMs, agent memory i sytuacje, gdy PM wysyła zmianę w kodzie bez dewelopera. Przejście od synchronicznego chatu do delegowania całego cyklu pracy.

Chat był boiskiem treningowym. Prawdziwa zmiana zaczyna się wtedy, gdy agent rano zostawia w repozytorium ślad, który ktoś musi przyjąć lub odrzucić, i nikt nie wie dokładnie, co robił w nocy.

#agents #coding #devtools #workflow

16:00 · źródło ↗

Data Formulator 0.7 próbuje przebudować analitykę danych enterprise wokół agentów AI

Microsoft Research wydał Data Formulator 0.7, środowisko analityczne, w którym agenty AI pomagają w eksploracji, transformacji i wizualizacji danych enterprise. Kluczowe pytanie: czy agent poradzi sobie z brudnymi, chronionymi danymi poza demo.

Data Formulator celuje w moment, w którym tabela zamienia się w decyzję. Agent obiecuje przejąć pracę przy przygotowaniu danych, ale w enterprise odniesie sukces tylko wtedy, gdy poradzi sobie z danymi, które nie są czyste i nigdy nie były.

#agents #research #microsoft

2026-05-27

23:44 · źródło ↗

SQLite stawia granicę: kod agentów nie, reprodukowalne błędy tak

SQLite dodało plik AGENTS.md z jasną zasadą dla osób kierujących agentów AI na codebase: kod agentów nie jest przyjmowany, ale dobre zgłoszenia błędów z reprodukowalnym testem mogą być użyteczne. Mały plik, duży sygnał dla utrzymania krytycznego open source.

To dojrzała odpowiedź na spam AI: nie zakazywać wszystkiego, tylko jasno określić, co ma wartość. Patch od agenta nie, reprodukowalny test tak. Maintainerzy chronią czas, jakość i czystość prawną projektu.

#agents #simonwillison #commentary

17:20 · źródło ↗

ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE

IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.

Frontier model z wynikiem 47 % w diagnostyce SRE to nie awaria modelu. To awaria hype. Dla tych, którzy w tym roku podpisują enterprise kontrakty na agenta AI do operacji IT, te liczby to pierwsza dawka rzeczywistości.

#agents #evals #benchmarks #enterprise

16:56 · źródło ↗

Google proponuje private analytics bez jednego punktu zaufania

Google Research pokazuje private analytics łączące secure aggregation z TEEs dla bezpieczniejszego mierzenia on-device AI.

To mniej efektowne niż nowy model, ale ważniejsze dla wdrożeń. Gdzieś w kieszeni użytkownika działa AI, a Google chce wiedzieć, co robi, bez zaglądania mu przez ramię.

#google #privacy #on-device-ai

07:50 · źródło ↗

Last Week in AI pokazuje gęsty tydzień wokół OpenAI i Gemini

Last Week in AI #341 łączy porażkę Muska z OpenAI, aktualizacje Gemini z IO 2026 i inne sygnały z rynku AI.

Zatłoczona tablica, na której sędzia, zespół produktowy Google i badacze OpenAI przypinają własne kartki. Żadnej jednej wielkiej tezy o rynku AI za tym nie ma.

#openai #google #roundup

07:00 · źródło ↗

Codex pomaga budować samodoskonalących się agentów podatkowych

OpenAI, Thrive Holdings i Crete zbudowały Tax AI dla ponad trzydziestu firm księgowych. Pilotaż obsłużył 7 000 deklaracji, oszczędza około jednej trzeciej czasu specjalistów i w sześć tygodni mocno poprawił wyniki dzięki pętli informacji zwrotnej z Codexem.

Najważniejsza nie jest sama automatyzacja formularzy podatkowych, lecz model działania. Tax AI zamienia realne błędy z pracy specjalistów w evale i zadania dla Codexa, więc produkt poprawia się na przypadkach, które faktycznie spowalniają firmy. To praktyczny obraz oprogramowania agentowego: człowiek zachowuje odpowiedzialność, system przejmuje powtarzalną pracę, a zespół produktowy szybciej przechodzi od awarii do poprawki.

#agents #openai #coding