#Agenci | Lilith AI

⌕

CS EN PL

Zacznij

Z Radaru

Radar · 2026-06-16

Anthropic wstrzymał rozliczanie Agent SDK, bo agenty trafiły na cennik

Anthropic 15 czerwca wstrzymał plan przeniesienia Claude Agent SDK, claude -p i części third-party agentów do osobnej puli kredytów. Zespoły z automatyzacjami dostały oddech, ale nie dostały jeszcze odpowiedzi, ile będą kosztować długie przebiegi agentów.

Radar · 2026-06-16

Android 17 zmienia Pixela w salon pokazowy Gemini

Google udostępnił Androida 17 i Wear OS 7 najpierw na urządzenia Pixel, razem z Pixel Drop z Gemini Omni, Lyria 3 i funkcjami tłumaczenia dla Pixela 10a. Ważniejszy od samej aktualizacji jest sygnał, że Android staje się dla Google kanałem dystrybucji modeli AI w telefonie.

Radar · 2026-06-15

Trzynaście słów na Reddicie może zatruć odpowiedź AI

Badanie opisane przez 404 Media twierdzi, że 13 słów w pobranym fragmencie tekstu z Reddita, Wikipedii, Quory lub Facebooka może popchnąć agentów AI w stronę spamu albo scamu. Dla AI search oznacza to przesunięcie SEO w obszar prompt injection i moderacji user-generated content.

Radar · 2026-06-15

Holo3.1 przesuwa computer-use agents z chmury na lokalne maszyny

H Company wydała Holo3.1, rodzinę computer-use models dla web, desktop, mobile i local inference. Najważniejsze nie są tylko wyższe wyniki, ale próba przeniesienia agenta bliżej miejsca, w którym naprawdę dzieje się praca.

Radar · 2026-06-15

Uber wycenia coding agents: 1 500 dolarów miesięcznie na narzędzie

Uber według Bloomberg ogranicza miesięczne wydatki tokenowe pracowników do 1 500 dolarów na każde agentic coding tool. Coding agents stają się pozycją w budżecie.

Radar · 2026-06-15

Google daje enterprise RAG strażnika, który wie, kiedy nie odpowiadać

Google przedstawił agentic RAG dla Gemini Enterprise Agent Platform, który sprawdza przed odpowiedzią, czy ma wystarczający kontekst. Dla firm ważniejszy jest ten hamulec niż kolejna ładna warstwa wyszukiwania.

Radar · 2026-06-15

Simon Willison pokazuje, dlaczego sandbox dla agenta nie może być kolejnym procesem Python

Simon Willison wydał alpha package micropython-wasm i plugin dla Datasette Agent, który uruchamia Python wewnątrz WebAssembly sandbox. Ważne nie jest demo, ale granica między użytecznym agentem a kodem, który może zepsuć aplikację hosta.

Radar · 2026-06-14

DOX: mały trik z AGENTS.md na duży problem kontekstu agentów

Agent Zero opublikował DOX, mały self-documenting framework AGENTS.md, w którym agenci utrzymują hierarchię lokalnych instrukcji przed i po zmianach w kodzie.

Radar · 2026-06-13

Apple wpuszcza edycję AI do Photos i wraca spór o prawdziwość zdjęcia

The Verge przetestował narzędzia AI do edycji zdjęć w iOS 27 i opisuje Reframe, Extend oraz Clean Up jako pierwszą poważniejszą natywną paczkę dla iPhone'a. Apple trzyma je raczej w ryzach, ale właśnie dlatego mogą trafić do znacznie szerszej grupy ludzi.

Radar · 2026-06-10

Niteshift ma $7 milionów na ucieczkę od lock-inu w AI coding agentach

Niteshift, założony przez byłych inżynierów Datadogu, zebrał seed $7 milionów prowadzony przez Greylock i sprzedaje infrastrukturę dla AI coding agentów. Stawką nie jest kolejny autocomplete, tylko możliwość przełączania się między GPT, Claude i modelami open source, gdy dostawca modelu zaczyna konkurować z klientem.

Radar · 2026-06-09

Koszt agenta przestaje być przypisem. To już koszt pracy inżynierskiej

Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.

Radar · 2026-06-09

Voice agents psują się na dwujęzycznych rozmowach szybciej niż w dopracowanych demach

ServiceNow AI opublikował benchmark ASR dla code-switched speech w scenariuszach enterprise i przetestował siedem systemów. Niewygodna pointa jest prosta: w voice agents błąd transkrypcji przechodzi przez cały workflow, więc dwujęzyczność nie jest drobnym detalem UX.

Radar · 2026-06-07

datasette-agent-edit rozwiązuje nudną część agentów: bezpieczną edycję tekstu

Simon Willison wydał datasette-agent-edit 0.1a0, bazowy plugin dla Datasette Agent z narzędziami view, str_replace i insert. To nie jest efektowne demo AI, tylko warstwa, która decyduje, czy agent potrafi zmieniać tekst bez przypadkowego psucia pliku.

Radar · 2026-06-03

Reachy Mini dostaje MCP tools z Hugging Face Spaces

Hugging Face pokazuje, jak Reachy Mini może wywoływać MCP tools hostowane w publicznych Spaces. Najciekawsze nie jest pytanie o pogodę, tylko rozdzielenie ciała robota od zdolności, które da się udostępniać i aktualizować poza aplikacją.

Radar · 2026-06-02

GitHub szykuje się na świat, w którym agenci piszą commity masowo

Rozmowa Latent Space z Kylem Daiglem pokazuje GitHub jako platformę pod presją agentic coding. Nie chodzi o kolejną funkcję Copilot, lecz o to, czy infrastruktura zbudowana dla ludzkiego tempa uniesie software produkowany przez maszyny.

Radar · 2026-06-01

Search nie powinien być przyciskiem. Powinien być programowalnym narzędziem dla agentów

Perplexity opisuje Search as Code: architekturę, w której agent nie wywołuje jednego monolitycznego search engine, lecz składa retrieval pipeline jako kod. Sednem nie jest ładniejsze API, tylko kontrola nad tym, jak dowody są znajdowane, filtrowane i weryfikowane.

Radar · 2026-06-01

Video generation przechodzi od klipu do agenta na płótnie

Latent Space w rozmowie z Ethanem He z xAI opisuje Grok Imagine jako przejście od jednorazowego video generation do video agents. Ta teza obroni się nie jakością dema, lecz tym, czy system potrafi iterować cały kreatywny brief.

Radar · 2026-05-28

Async agents dostają spec, pracują w izolowanym VM i rano zostawiają pull request w repozytorium

Rozmowa Latent Space z Cognition i OpenInspect pokazuje coding agents jako asynchronicznych pracowników: spec-to-PR workflows, full VMs, agent memory i sytuacje, gdy PM wysyła zmianę w kodzie bez dewelopera. Przejście od synchronicznego chatu do delegowania całego cyklu pracy.

Radar · 2026-05-28

Data Formulator 0.7 próbuje przebudować analitykę danych enterprise wokół agentów AI

Microsoft Research wydał Data Formulator 0.7, środowisko analityczne, w którym agenty AI pomagają w eksploracji, transformacji i wizualizacji danych enterprise. Kluczowe pytanie: czy agent poradzi sobie z brudnymi, chronionymi danymi poza demo.

Radar · 2026-05-27

SQLite stawia granicę: kod agentów nie, reprodukowalne błędy tak

SQLite dodało plik AGENTS.md z jasną zasadą dla osób kierujących agentów AI na codebase: kod agentów nie jest przyjmowany, ale dobre zgłoszenia błędów z reprodukowalnym testem mogą być użyteczne. Mały plik, duży sygnał dla utrzymania krytycznego open source.

Radar · 2026-05-27

ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE

IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.

Radar · 2026-05-27

Codex pomaga budować samodoskonalących się agentów podatkowych

OpenAI, Thrive Holdings i Crete zbudowały Tax AI dla ponad trzydziestu firm księgowych. Pilotaż obsłużył 7 000 deklaracji, oszczędza około jednej trzeciej czasu specjalistów i w sześć tygodni mocno poprawił wyniki dzięki pętli informacji zwrotnej z Codexem.

Radar · 2026-05-27

Warp stawia na open-source terminal agentowy z GPT-5.5

Warp chce przesunąć terminal z roli narzędzia do poleceń w stronę agentowego środowiska programistycznego. Otwarty klient, OpenAI jako sponsor założycielski i GPT-5.5 mają wspierać model pracy, w którym ludzie wyznaczają cele i nadzorują rezultat, a agenci planują, kodują, testują i otwierają pull requesty.

Radar · 2026-05-26

Interconnects mapuje kolejną fazę konkurencji modeli

Nathan Lambert pisze o Gemini Flash 3.5, Mythos, narzędziach agentowych i napięciu między open i closed models w majowej prognozie.

Radar · 2026-05-26

Copilot Cowork zamienia uprawnienia użytkownika w ścieżkę eksfiltracji przez prompt injection

Badacze PromptArmor pokazali łańcuch ataku, w którym Microsoft Copilot Cowork może pomóc w eksfiltracji plików z Microsoft 365 przez prompt injection. To nie tylko błąd jednego produktu, lecz ostrzeżenie dla wszystkich systemów agentowych z delegowanymi uprawnieniami.

Radar · 2026-05-26

LWiAI #246: jeden tydzień, cztery fronty naraz. Google I/O, agenci, prawnicy, bezpieczeństwo

Epizoda LWiAI Podcast #246 z 26 maja 2026 to rozcestník, nie jedna wielka teza. Google I/O, coding agents, presja prawna wokół OpenAI i badania nad bezpieczeństwem złożyły się w jeden tydzień i zarysowały cztery równoczesne presje na rynek AI.

Radar · 2026-05-22

AI Snake Oil pyta: czy agenty Google naprawdę zbudowały OS za 916 dolarów, czy to było starannie oświetlone demo?

AI Snake Oil analizuje twierdzenie, że agenty Google AI zbudowały system operacyjny za 916 dolarów. Kluczowy punkt: ogłoszenia agentyczne wymagają innego rodzaju weryfikacji niż benchmarki chatowe, bo duży cel i kilka kroków w środowisku demo łatwo zawyżyć.

Radar · 2026-05-22

Gartner uznaje OpenAI za lidera enterprise coding agents

OpenAI twierdzi, że Gartner uznał Codex za lidera wśród enterprise AI coding agents. Dla firm to przede wszystkim sygnał zakupowy i governance, nie dowód przewagi technicznej.

Radar · 2026-05-21

MagenticLite łączy małe modele, orkiestrację i lokalny file system w jeden workflow bez frontier modelu

Microsoft Research opisuje MagenticLite, MagenticBrain i Fara1.5 jako system agentowy zoptymalizowany dla małych modeli, łączący przeglądarkę i lokalny file system w jednym workflow. Kierunek jest praktyczny: nie jeden drogi model do wszystkiego, ale orkiestracja wyspecjalizowanych komponentów.

Radar · 2026-05-20

OpenAI przesuwa Education for Countries w stronę krajowych programów AI w edukacji

OpenAI przesuwa Education for Countries w stronę krajowych programów AI w edukacji. Nie chodzi tylko o dostęp do ChatGPT, lecz o kształtowanie infrastruktury, szkoleń i nawyków operacyjnych wokół AI w sektorze publicznym.

Ze Słownika

Słownik

Agent infrastructure — nudna warstwa, bez której agenci nie działają

Agent to nie tylko model z zadaniem. W produkcji potrzebuje tożsamości, uprawnień, inboxów, narzędzi, pamięci, audytu, telemetry i jasnych granic. Bez infrastruktury autonomia jest tylko ładnym demem z ryzykiem.

Słownik

Agenci — kiedy LLM dostaje ręce i pamięć

LLM z tool use, pętlą i pamięcią. Dużo marketingu, mało definicji. Tu jest wersja bez owijania.

Słownik

Asynchroniczni agenci — praca, która nie żyje w czacie

Agent, który dostaje zadanie, działa poza rozmową i zwraca gotowy artefakt. Mocne przy długich workflow, groźne bez stanu, limitów i kontroli.

Słownik

Bezpieczeństwo agentów i sandboxing

Agent z narzędziami to mała maszyna do konsekwencji. Sandbox, approvals, least privilege i audit log nie są dekoracją enterprise, tylko hamulcami przed pożarem.

Słownik

Agenci kodujący — kiedy model dotyka repo

Claude Code, Codex i reszta to nie magiczny junior. To szybka pętla: czytaj kod, edytuj, uruchom testy, napraw skutki. Przydatne, ale tylko z barierkami.

Słownik

Agenci computer-use — model, który klika

Agent computer-use widzi ekran i steruje UI. Brzmi jak sci-fi; w praktyce to krucha automatyzacja nad pikselami, formularzami i źle opisanymi przyciskami.

Słownik

Ewaluacje i benchmarki — pomiar zamiast wrażeń

Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.

Słownik

Koog i agenci AI w Kotlinie — co to jest i do czego służy

Koog to framework JetBrains do budowania agentów AI w Kotlinie i Javie. Skupia się na praktycznej architekturze: strategiach, narzędziach, pamięci, tracingu, długim kontekście i wdrożeniach JVM.

Słownik

Physical AI — kiedy agent sięga do świata

Physical AI łączy modele, roboty, symulacje i działania w realnym środowisku. Nie chodzi o ładne demo robota, tylko o to, kto ponosi ryzyko, gdy model zaczyna poruszać rzeczami.

Słownik

Prompt injection — obce instrukcje w twoim kontekście

Prompt injection to nie popisowy jailbreak. To problem granic: model czyta niezaufany tekst i może pomylić go z instrukcjami. Przy agentach pali dwa razy mocniej.

Słownik

Tool use — kiedy model wywołuje narzędzia

Tool use to moment, kiedy LLM przestaje tylko odpowiadać i zaczyna wywoływać API, uruchamiać komendy, czytać pliki albo dotykać baz danych. Użyteczne, ostre i niebezpieczne.