Radar | Lilith AI

2026-05-27

00:00 · źródło ↗

Warp stawia na open-source terminal agentowy z GPT-5.5

Warp chce przesunąć terminal z roli narzędzia do poleceń w stronę agentowego środowiska programistycznego. Otwarty klient, OpenAI jako sponsor założycielski i GPT-5.5 mają wspierać model pracy, w którym ludzie wyznaczają cele i nadzorują rezultat, a agenci planują, kodują, testują i otwierają pull requesty.

To coś więcej niż kolejna opowieść o terminalu z AI. Jeśli Warp połączy otwartego klienta z uprawnieniami, pamięcią, zdalnym uruchamianiem i obserwowalnym przepływem pull requestów, terminal może stać się panelem sterowania dla zespołów agentów. Najtrudniejsze pozostaje zaufanie, powtarzalność i jakość review, a nie sama liczba linii kodu generowanych przez agenta.

#agents #openai #models

2026-05-26

15:39 · źródło ↗

Interconnects mapuje kolejną fazę konkurencji modeli

Nathan Lambert pisze o Gemini Flash 3.5, Mythos, narzędziach agentowych i napięciu między open i closed models w majowej prognozie.

Tekst Lamberta jest mniej prognozą, a bardziej checklistą. Kto czeka na jeden zwycięski model, stoi przed tablicą, na której każda strzałka biegnie w inną stronę.

#agents #models #open-source

15:36 · źródło ↗

Copilot Cowork zamienia uprawnienia użytkownika w ścieżkę eksfiltracji przez prompt injection

Badacze PromptArmor pokazali łańcuch ataku, w którym Microsoft Copilot Cowork może pomóc w eksfiltracji plików z Microsoft 365 przez prompt injection. To nie tylko błąd jednego produktu, lecz ostrzeżenie dla wszystkich systemów agentowych z delegowanymi uprawnieniami.

Agent z dostępem do Graph to pracownik z pełnomocnictwem ogólnym, który może otworzyć drzwi nawet wtedy, gdy uważa, że wysyła tylko niewinną wiadomość z podsumowaniem.

#agents #simonwillison #commentary

05:10 · źródło ↗

LWiAI #246: jeden tydzień, cztery fronty naraz. Google I/O, agenci, prawnicy, bezpieczeństwo

Epizoda LWiAI Podcast #246 z 26 maja 2026 to rozcestník, nie jedna wielka teza. Google I/O, coding agents, presja prawna wokół OpenAI i badania nad bezpieczeństwem złożyły się w jeden tydzień i zarysowały cztery równoczesne presje na rynek AI.

Ten link nie jest artykułem, z którego trzeba robić wielką tezę. To mapa radarowa tygodnia: modele z przodu, agenci za nimi, prawnicy przy drzwiach i ludzie od bezpieczeństwa z ręką na hamulcu.

#agents #openai #models #google #newsletter #roundup

00:00 · źródło ↗

Anthropic mianuje KiYoung Choia szefem Korei przed otwarciem biura w Seulu

Anthropic mianował KiYoung Choia dyrektorem przedstawicielskim w Korei przed otwarciem biura w Seulu, wskazując na wyjątkowo silne użycie Claude w kraju.

To coś więcej niż lokalna rekrutacja. Anthropic pokazuje, że Korea nie jest już tylko zdalnym popytem na Claude, ale rynkiem, na którym trzeba budować relacje z firmami, państwem, badaniami i deweloperami.

#research #models #anthropic

2026-05-25

00:00 · źródło ↗

Chris Olah z Anthropic ostrzega Watykan przed bodźcami frontier AI

Papież Leon XIV ogłosił encyklikę Magnifica humanitas o ochronie osoby ludzkiej w epoce sztucznej inteligencji. Podczas prezentacji w Watykanie Chris Olah z Anthropic ostrzegł, że laboratoria tworzące modele frontier działają pod presją bodźców, które mogą kolidować z dobrem publicznym.

Najmocniejsza część wystąpienia Olaha jest nie tyle techniczna, ile instytucjonalna: nawet uczciwi badacze działają w wyścigu kształtowanym przez handel, prestiż i geopolitykę. Jeśli AI ma służyć ludziom, nie wystarczy zaufać laboratoriom. Potrzebna jest stała presja z zewnątrz, język godności człowieka i odwaga, by pytać, kto poniesie koszty, a kto otrzyma korzyści.

#research #models #anthropic

2026-05-22

22:24 · źródło ↗

AI Snake Oil pyta: czy agenty Google naprawdę zbudowały OS za 916 dolarów, czy to było starannie oświetlone demo?

AI Snake Oil analizuje twierdzenie, że agenty Google AI zbudowały system operacyjny za 916 dolarów. Kluczowy punkt: ogłoszenia agentyczne wymagają innego rodzaju weryfikacji niż benchmarki chatowe, bo duży cel i kilka kroków w środowisku demo łatwo zawyżyć.

Gdy agent rzekomo buduje system operacyjny za cenę dobrej kolacji, pierwszą reakcją nie powinien być zachwyt. Powinna nią być kontrola rachunku, dokładnego zadania i tego, kto trzymał młotek w kontrolowanym środowisku.

#agents #evals #google #hype

00:00 · źródło ↗

Gartner uznaje OpenAI za lidera enterprise coding agents

OpenAI twierdzi, że Gartner uznał Codex za lidera wśród enterprise AI coding agents. Dla firm to przede wszystkim sygnał zakupowy i governance, nie dowód przewagi technicznej.

Gartner nie mówi, który agent pisze najlepszy kod. Mówi, którego dostawcę łatwiej obronić przed zakupami, bezpieczeństwem i zarządem. Dla Codex w enterprise może to być równie ważne jak nowe funkcje.

#agents #openai #coding

2026-05-21

17:00 · źródło ↗

MagenticLite łączy małe modele, orkiestrację i lokalny file system w jeden workflow bez frontier modelu

Microsoft Research opisuje MagenticLite, MagenticBrain i Fara1.5 jako system agentowy zoptymalizowany dla małych modeli, łączący przeglądarkę i lokalny file system w jednym workflow. Kierunek jest praktyczny: nie jeden drogi model do wszystkiego, ale orkiestracja wyspecjalizowanych komponentów.

Przyszłość agentów nie musi wyglądać jak jeden ogromny mózg w chmurze. Może przypominać system wyspecjalizowanych komponentów, gdzie każda część ma jasną odpowiedzialność, a praca nie znika w logu jednego zdalnego serwera.

#agents #tool-use #microsoft #small-models

2026-05-20

00:00 · źródło ↗

OpenAI przesuwa Education for Countries w stronę krajowych programów AI w edukacji

OpenAI przesuwa Education for Countries w stronę krajowych programów AI w edukacji. Nie chodzi tylko o dostęp do ChatGPT, lecz o kształtowanie infrastruktury, szkoleń i nawyków operacyjnych wokół AI w sektorze publicznym.

Education for Countries to nie jest kolejna pomoc szkolna. Prawdziwe pytanie brzmi, kto ustawi domyslne zasady, nawyki i zaleznosci dla pokolenia uczniów, nauczycieli i pracowników publicznych. Ten, kto dostanie klucze do klas dzis, bedzie ksztaltowal kompetencje cyfrowe sektora publicznego przez dekade.

#agents #openai

2026-05-18

10:00 · źródło ↗

OpenAI i Dell przenoszą Codex on-prem: enterprise chce agenta blisko swoich danych, nie w chmurze

OpenAI i Dell chcą przenieść Codex bliżej danych firmowych, infrastruktury hybrydowej i środowisk on-prem. Mniej efektowne niż demo, ale ważniejsze dla adopcji enterprise.

Enterprise nie chce agenta, który jest madry tylko w izolowanym czacie. Chce agenta, który rozumie systemom wewnetrznym, widzi właściwe dane i zostawia slad audytowy. Bez tego to ladna prezentacja, nie warstwą operacyjna.

#agents #openai #coding

2026-05-14

19:44 · źródło ↗

AgentMail daje agentom AI własną skrzynkę e-mail jako podstawową tożsamość

AgentMail oferuje prawdziwe skrzynki e-mail dla agentów AI: tworzenie inboxów, wysyłanie, odbiór, wątki, załączniki, webhooki, WebSockets, wyszukiwanie, własne domeny i integrację MCP. Firma ogłosiła rundę seed 6 mln dolarów prowadzoną przez General Catalyst z udziałem Y Combinatoru.

To nudna infrastruktura, której agenci potrzebują zanim autonomia stanie się naprawdę użyteczna: inbox, ślad audytowy i trwała tożsamość. Praktyczne i trochę niepokojące.

#agents #mcp #infrastructure #ai

20:30 · źródło ↗

Sea wdraża Codex u 87% zespołu i traktuje agentów jako zmianę organizacyjną, nie wtyczkę

Sea Limited wdraża Codex w engineeringu, a OpenAI podaje 87% weekly active users. Rozmowa z Davidem Chenem z Shopee nie dotyczy tylko szybszego pisania kodu. Pokazuje agentów jako warstwę nad złożonymi codebase, CI/CD, testami i projektowaniem systemów.

Ważne jest tu przejscie od autocomplete do agenta operacyjnego. Sea mówi o zlozonosci, testach, projektowaniu systemów i pracy w duzej organizacji engineeringowej. Jeżeli to działa, nie jest to plugin do edytora. To zmienia sposób, w jaki organizacja absorbuje prace.

#openai #coding

13:00 · źródło ↗

Codex w mobilnym ChatGPT: agent przestaje być oknem na laptopie

Codex trafia do aplikacji mobilnej ChatGPT. Nie jako zabawka w podróży, lecz jako warstwą sterowania długimi zadaniami w prawdziwych środowiskach developerskich.

To cicho duża zmiana. Agent przestaje być oknem na laptopie, a staje się procesem pracy, do którego wchodzisz wtedy, gdy potrzebuje decyzji, zgody albo korekty kursu. Jesli masz prawdziwy sandbox i audit, to ma sens. Jesli nie, tylko dodaje przycisk na chaos.

#openai #coding

2026-05-13

16:15 · źródło ↗

„11 agentów AI” to pusta metryka

Simon Willison przytoczył uwagę Borisa Manna, że hasło „11 agentów AI” samo w sobie nic nie znaczy. Mówi mniej więcej tyle co liczba arkuszy albo kart w przeglądarce. Liczą się wynik, granice odpowiedzialności, przepływ pracy, przekazania, obserwowalność, obsługa błędów, uprawnienia i kontrola człowieka.

To dobra odtrutka na marketing agentów, który myli liczbę z dojrzałością. Jedenastu agentów może tworzyć przemyślany system, ale może też oznaczać jedenaście miejsc, w których ginie kontekst. Bez granic, audytu, uprawnień i kontroli człowieka to raczej lista elementów niż architektura.

#agents #ai #agent-definitions

02:47 · źródło ↗

Fine-tuning nie umiera. Po prostu przestaje być domyślną odpowiedzią

Latent Space używa ograniczenia części API fine-tuning OpenAI jako dobrego reality check: dla większości produktów AI pierwszym krokiem nie jest dziś dostrajanie wag, lecz lepsza ewaluacja, kontekst, retrieval, tool use i workflow. Fine-tuning pozostaje silnym narzędziem, tylko nie uniwersalnym lekiem na źle zaprojektowany system.

Fine-tuning nie umiera. Umiera wygodne zdanie 'dostroimy to'. Bez ewali, jakościowych danych i jasnego powodu do sięgania po wagi modelu, fine-tuning często tylko konserwuje bałagan w droższej formie. Skalpel tak. Młotek na każdy problem, nie.

#openai #models #fine-tuning #ai-engineering

2026-05-12

15:00 · źródło ↗

Codex wchodzi do finansów: raportowanie i variance bridges bez ręcznego piekła

OpenAI Academy pokazuje Codex w zespołach finansowych: MBR, pakiety raportowe, variance bridges, kontrole modeli i scenariusze planistyczne z roboczych danych. Mniej efektowne niż demo generowania aplikacji, ale praktycznie cenniejsze: warstwą agenta nad powtarzalną pracą analityczną.

To dokladnie ten typ enterprise AI, który nie wyglada jak fajerwerki, ale może oszczedzic realne godziny. Finanse nie potrzebuja agenta udajacego CFO. Potrzebuja czegos, co przejdzie przez arkusze, wyjasni odchylenia, znajdzie zerwane powiazania i zostawi ostatni osad czlowiekowi.

#openai #models #coding

00:00 · źródło ↗

Parameter Golf pokazuje, jak agenci kodujący zmieniają tempo iteracji badawczej

OpenAI opublikowalo wnioski z Parameter Golf: ponad 1 000 uczestników, ponad 2 000 zglосzeń, limit 16 MB na artefakt i 10 minut treningu na 8x H100. Najważniejsza nie jest tylko kompresja modeli. Agenci kodujący zmienili tempo iteracji badawczej.

Parameter Golf to mały format z dużym ostrzeżeniem. Agenci obniżają koszt testowania dziwnych pomysłów, co dla badań jest świetne. Ta sama szybkość tworzy też eleganckie bzdury, przeuczone sztuczki i fałszywe poczucie przełomu. Dobre evale wygrywają. Bez nich tylko szybciej toniesz.

#agents #research #openai #models

2026-05-11

02:41 · źródło ↗

CodexBar łączy śledzenie limitów 29 narzędzi AI coding w jednej ikonie

CodexBar to open-source owa aplikacja do paska menu macOS, która łączy śledzenie limitów, kredytów, okien resetów i statusu awarii dla 29 providerów AI coding, m.in. Codex, Claude, Cursor, Gemini, Copilot i OpenRouter.

Kolejny błyszczący edytor AI to nie jest. CodexBar to termometr chaosu subskrypcji, który deweloperzy sami sobie zgotowali. Przy kilku agentach codingowych widoczne limity to infrastruktura produktywności, nie ozdoba. Że trzeba było na to tworzyć osobną aplikację mówi wszystko o fragmentacji dzisiejszego AI stacku.

#tool-use #ai #coding #open-source

19:48 · źródło ↗

Agent do kodowania, który nie obniża kosztów utrzymania, to tylko drogi dług techniczny

James Shore podaje niewygodną matematykę coding agents: jeśli agent podwaja output, ale koszty utrzymania pozostają stałe, zespół nie zyskał szybkości, lecz podwoił swój dług techniczny.

Zespół z 3× większą liczbą pull requestów, który nie nadąża z review, nie jest 3× bardziej produktywny. Jest 3× bardziej zadłużony. Agent, który nie obniża maintenance, to tylko szybszy sposób na kopanie dołka.

#agents #ai #models #coding #simonwillison #commentary