Lilith Lilith.
CS EN PL
Zacznij
2026-06-03

Wasmer pokazuje Codex jako dźwignię dla małych zespołów, nie magiczny compiler

OpenAI twierdzi, że Wasmer z pomocą Codex zbudował Edge.js w dwa tygodnie zamiast szacowanego roku i przyspieszył rozwój 10x do 20x. Mocniejsza pointa nie leży w samym numerze, ale w zmianie roli programisty: mniej pisania linijek, więcej prowadzenia ryzykownej pracy modelu.

Historia nie polega na tym, że Codex napisał runtime. To opowieść o małym zespole, który dał modelowi łopatę, ale sam stał przy wykopie w kasku, z miarką i prawem powiedzieć stop.

Reachy Mini dostaje MCP tools z Hugging Face Spaces

Hugging Face pokazuje, jak Reachy Mini może wywoływać MCP tools hostowane w publicznych Spaces. Najciekawsze nie jest pytanie o pogodę, tylko rozdzielenie ciała robota od zdolności, które da się udostępniać i aktualizować poza aplikacją.

Sztuczka z pogodą to tylko opakowanie. Liczy się moment, w którym mały robot zaczyna zadawać prawdziwe pytanie: kto może położyć nowe narzędzie na stole i pozwolić mu rozmawiać z ciałem?

2026-06-02

GitHub szykuje się na świat, w którym agenci piszą commity masowo

Rozmowa Latent Space z Kylem Daiglem pokazuje GitHub jako platformę pod presją agentic coding. Nie chodzi o kolejną funkcję Copilot, lecz o to, czy infrastruktura zbudowana dla ludzkiego tempa uniesie software produkowany przez maszyny.

GitHub nie pyta już, czy agenci umieją pisać kod. Patrzy na kolejkę pull requests, w której zmęczony maintainer musi rozpoznać, który robotyczny kolega pomógł, a który tylko wysypał mu pracę na biurko.

2026-06-01

Search nie powinien być przyciskiem. Powinien być programowalnym narzędziem dla agentów

Perplexity opisuje Search as Code: architekturę, w której agent nie wywołuje jednego monolitycznego search engine, lecz składa retrieval pipeline jako kod. Sednem nie jest ładniejsze API, tylko kontrola nad tym, jak dowody są znajdowane, filtrowane i weryfikowane.

Search as Code to nie kolejna ładna nazwa na web search. To moment, w którym agent przestaje przeglądać wyniki jak człowiek i zaczyna budować własny pipeline śledczy: kandydaci, filtry, dowody i kosz na szum.

Video generation przechodzi od klipu do agenta na płótnie

Latent Space w rozmowie z Ethanem He z xAI opisuje Grok Imagine jako przejście od jednorazowego video generation do video agents. Ta teza obroni się nie jakością dema, lecz tym, czy system potrafi iterować cały kreatywny brief.

Video agent robi się ciekawy dopiero wtedy, gdy człowiek przy stole przestaje być dozorcą promptów. Jeśli każdą wersję trzeba ręcznie wyciągać z rowu, to nadal tylko głośne narzędzie do klipów.

Opus 4.8 pokazuje, że strojenie zachowania modelu to nie lista poprawek

Zvi Mowshowitz czyta Opus 4.8 przez model welfare i twierdzi, że próby naprawy honesty, sycophancy oraz kształtowania preferencji mogą tworzyć nowe problemy gdzie indziej. Dla zespołów wdrażających modele to przypomnienie, że alignment nie jest checklistą.

Upgrade modelu to nie wymiana żarówki. To nowy kolega przy stole: może dokładniejszy, może ostrożniejszy, ale cały zespół musi sprawdzić, czy nie zamilkł dokładnie wtedy, gdy powinien mówić.

Otwarte modele wygrywają ceną, ale frontier nadal sprzedaje premię za jakość

Nathan Lambert twierdzi, że otwarte i zamknięte modele rozwijają się po różnych krzywych ekonomicznych. Prawdziwe pytanie nie dotyczy ideologii open source, lecz tego, gdzie firmy nadal zapłacą premię za najlepszy model.

Wojna „open kontra closed” to złudzenie. Prawdziwa scena jest bardziej sucha: CFO patrzy na rachunek za tokeny, a obok programista pokazuje pull request, który inaczej leżałby trzy dni.

2026-05-30

Service worker przechwytuje żądania HTTP i obsługuje je w aplikacji Python ASGI działającej bezpośrednio w przeglądarce

Simon Willison eksperymentuje z uruchamianiem aplikacji Python ASGI bezpośrednio w przeglądarce przez Pyodide i service worker. FastAPI i kompletne Datasette 1.0a31 działają. Celem jest dystrybucja: demo lub narzędzia danych jako samowystarczalne strony bez serwera.

To podejście nie zastępuje serwera. Zmniejsza tarcie między pomysłem a pokazem: aplikacja Python jako strona, bez deployu, bez konta, bez infrastruktury serwerowej.

2026-05-29

Anthropic przekroczył $47 mld run-rate revenue w pięć miesięcy i tempo rośnie

Simon Willison zwrócił uwagę na liczbę z ogłoszenia serii H Anthropic: run-rate revenue przekroczyło 47 mld dolarów. Trajektoria jest uderzająca: 9 mld w grudniu 2025, 30 mld w kwietniu, 47 mld w maju 2026.

$47 mld run-rate to księga rachunkowa, w której klienci enterprise po raz pierwszy widzą, ile kosztuje zautomatyzowana praca bez limitów. Gdzieś w tych liczbach kryje się pewnie jedna źle skonfigurowana polityka użytkowania.

2026-05-28

Opus 4.8 czterokrotnie rzadziej pomija błędy w kodzie i wprowadza aktualizacje instrukcji w trakcie rozmowy

Anthropic wypuścił Opus 4.8 z jedną konkretną metryką: model jest czterokrotnie rzadziej narażony na pominięcie błędu w kodzie niż poprzednik. Dodaje też mid-conversation system messages i obniża minimalny rozmiar prompt cache z 4 096 do 1 024 tokenów.

Opus 4.8 nie przyszedł z efektem keynote, ale z rachunkiem: czterokrotnie mniej pominiętych błędów w kodzie i model, który woli milczeć, niż kłamać. To dokładnie ta rzetelność, za którą płacisz 25 dolarów za milion tokenów.

Google chce, żeby agent proponował hipotezy i pisał kod eksperymentalny zamiast naukowca

Na I/O 2026 Google Research pokazał Gemini for Science, ERA i Co-Scientist jako systemy, w których AI przejmuje środkowe etapy badań: przegląd literatury, pisanie kodu, iterację hipotez. Ryzyko fałszywej pewności i vendor lock-in jest poważne.

Google nie daje tu naukowcom tylko mądrzejszego chatbota. Chce zbudować laboratorium, w którym agent projektuje protokół, a człowiek nadal musi pilnować, czy na stole nie leży pięknie sformułowany błąd.

Async agents dostają spec, pracują w izolowanym VM i rano zostawiają pull request w repozytorium

Rozmowa Latent Space z Cognition i OpenInspect pokazuje coding agents jako asynchronicznych pracowników: spec-to-PR workflows, full VMs, agent memory i sytuacje, gdy PM wysyła zmianę w kodzie bez dewelopera. Przejście od synchronicznego chatu do delegowania całego cyklu pracy.

Chat był boiskiem treningowym. Prawdziwa zmiana zaczyna się wtedy, gdy agent rano zostawia w repozytorium ślad, który ktoś musi przyjąć lub odrzucić, i nikt nie wie dokładnie, co robił w nocy.

Data Formulator 0.7 próbuje przebudować analitykę danych enterprise wokół agentów AI

Microsoft Research wydał Data Formulator 0.7, środowisko analityczne, w którym agenty AI pomagają w eksploracji, transformacji i wizualizacji danych enterprise. Kluczowe pytanie: czy agent poradzi sobie z brudnymi, chronionymi danymi poza demo.

Data Formulator celuje w moment, w którym tabela zamienia się w decyzję. Agent obiecuje przejąć pracę przy przygotowaniu danych, ale w enterprise odniesie sukces tylko wtedy, gdy poradzi sobie z danymi, które nie są czyste i nigdy nie były.

2026-05-27

SQLite stawia granicę: kod agentów nie, reprodukowalne błędy tak

SQLite dodało plik AGENTS.md z jasną zasadą dla osób kierujących agentów AI na codebase: kod agentów nie jest przyjmowany, ale dobre zgłoszenia błędów z reprodukowalnym testem mogą być użyteczne. Mały plik, duży sygnał dla utrzymania krytycznego open source.

To dojrzała odpowiedź na spam AI: nie zakazywać wszystkiego, tylko jasno określić, co ma wartość. Patch od agenta nie, reprodukowalny test tak. Maintainerzy chronią czas, jakość i czystość prawną projektu.

ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE

IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.

Frontier model z wynikiem 47 % w diagnostyce SRE to nie awaria modelu. To awaria hype. Dla tych, którzy w tym roku podpisują enterprise kontrakty na agenta AI do operacji IT, te liczby to pierwsza dawka rzeczywistości.

Codex pomaga budować samodoskonalących się agentów podatkowych

OpenAI, Thrive Holdings i Crete zbudowały Tax AI dla ponad trzydziestu firm księgowych. Pilotaż obsłużył 7 000 deklaracji, oszczędza około jednej trzeciej czasu specjalistów i w sześć tygodni mocno poprawił wyniki dzięki pętli informacji zwrotnej z Codexem.

Najważniejsza nie jest sama automatyzacja formularzy podatkowych, lecz model działania. Tax AI zamienia realne błędy z pracy specjalistów w evale i zadania dla Codexa, więc produkt poprawia się na przypadkach, które faktycznie spowalniają firmy. To praktyczny obraz oprogramowania agentowego: człowiek zachowuje odpowiedzialność, system przejmuje powtarzalną pracę, a zespół produktowy szybciej przechodzi od awarii do poprawki.