Etykieta
#Simon Willison
Z Radaru
Radar · 2026-06-15
Uber wycenia coding agents: 1 500 dolarów miesięcznie na narzędzie
Uber według Bloomberg ogranicza miesięczne wydatki tokenowe pracowników do 1 500 dolarów na każde agentic coding tool. Coding agents stają się pozycją w budżecie.
Czytaj →Radar · 2026-06-15
Simon Willison pokazuje, dlaczego sandbox dla agenta nie może być kolejnym procesem Python
Simon Willison wydał alpha package micropython-wasm i plugin dla Datasette Agent, który uruchamia Python wewnątrz WebAssembly sandbox. Ważne nie jest demo, ale granica między użytecznym agentem a kodem, który może zepsuć aplikację hosta.
Czytaj →Radar · 2026-06-08
Apple wraca z Siri przez Gemini, ale na dowody wciąż czekamy
Apple ogłosiło na WWDC 2026 Siri AI i kolejne funkcje Apple Intelligence, jednocześnie rozszerzając Private Cloud Compute na Google Cloud z NVIDIA GPU dla wymagających zadań. Po zeszłorocznym rozczarowaniu Apple Intelligence nie chodzi o keynote, ale o to, czy Siri wreszcie przetrwa poza demo.
Czytaj →Radar · 2026-06-07
datasette-agent-edit rozwiązuje nudną część agentów: bezpieczną edycję tekstu
Simon Willison wydał datasette-agent-edit 0.1a0, bazowy plugin dla Datasette Agent z narzędziami view, str_replace i insert. To nie jest efektowne demo AI, tylko warstwa, która decyduje, czy agent potrafi zmieniać tekst bez przypadkowego psucia pliku.
Czytaj →Radar · 2026-06-05
Lockdown Mode odcina najgroźniejszą drogę ucieczki po prompt injection
OpenAI uruchomiła Lockdown Mode dla wybranych kont osobistych ChatGPT oraz self-serve ChatGPT Business. Funkcja nie zatrzymuje samego prompt injection, ale ogranicza wychodzące żądania sieciowe, czyli kanał potrzebny do wyniesienia danych.
Czytaj →Radar · 2026-05-30
Service worker przechwytuje żądania HTTP i obsługuje je w aplikacji Python ASGI działającej bezpośrednio w przeglądarce
Simon Willison eksperymentuje z uruchamianiem aplikacji Python ASGI bezpośrednio w przeglądarce przez Pyodide i service worker. FastAPI i kompletne Datasette 1.0a31 działają. Celem jest dystrybucja: demo lub narzędzia danych jako samowystarczalne strony bez serwera.
Czytaj →Radar · 2026-05-29
Anthropic przekroczył $47 mld run-rate revenue w pięć miesięcy i tempo rośnie
Simon Willison zwrócił uwagę na liczbę z ogłoszenia serii H Anthropic: run-rate revenue przekroczyło 47 mld dolarów. Trajektoria jest uderzająca: 9 mld w grudniu 2025, 30 mld w kwietniu, 47 mld w maju 2026.
Czytaj →Radar · 2026-05-28
Opus 4.8 czterokrotnie rzadziej pomija błędy w kodzie i wprowadza aktualizacje instrukcji w trakcie rozmowy
Anthropic wypuścił Opus 4.8 z jedną konkretną metryką: model jest czterokrotnie rzadziej narażony na pominięcie błędu w kodzie niż poprzednik. Dodaje też mid-conversation system messages i obniża minimalny rozmiar prompt cache z 4 096 do 1 024 tokenów.
Czytaj →Radar · 2026-05-27
SQLite stawia granicę: kod agentów nie, reprodukowalne błędy tak
SQLite dodało plik AGENTS.md z jasną zasadą dla osób kierujących agentów AI na codebase: kod agentów nie jest przyjmowany, ale dobre zgłoszenia błędów z reprodukowalnym testem mogą być użyteczne. Mały plik, duży sygnał dla utrzymania krytycznego open source.
Czytaj →Radar · 2026-05-26
Copilot Cowork zamienia uprawnienia użytkownika w ścieżkę eksfiltracji przez prompt injection
Badacze PromptArmor pokazali łańcuch ataku, w którym Microsoft Copilot Cowork może pomóc w eksfiltracji plików z Microsoft 365 przez prompt injection. To nie tylko błąd jednego produktu, lecz ostrzeżenie dla wszystkich systemów agentowych z delegowanymi uprawnieniami.
Czytaj →Radar · 2026-05-11
Agent do kodowania, który nie obniża kosztów utrzymania, to tylko drogi dług techniczny
James Shore podaje niewygodną matematykę coding agents: jeśli agent podwaja output, ale koszty utrzymania pozostają stałe, zespół nie zyskał szybkości, lecz podwoił swój dług techniczny.
Czytaj →Radar · 2026-05-07
Mozilla naprawiła setki błędów Firefoksa z Claude Mythos. Jakość raportów bezpieczeństwa AI właśnie się zmieniła.
Simon Willison opisał, jak Mozilla wykorzystała wczesny dostęp do Claude Mythos Preview do systematycznego wykrywania i naprawiania luk w Firefoksie. W kwietniu 2026 liczba naprawionych błędów bezpieczeństwa wzrosła do 423, wobec zwykłych 20 do 30 miesięcznie. Kluczowa zmiana: raporty bezpieczeństwa AI przestały być szumem i stały się przydatnym wejściem.
Czytaj →Radar · 2025-11-18
Gemini 3 Pro w praktyce: niezła transkrypcja, błędne znaczniki czasu i żaden model nie zna pelikana
Simon Willison przetestował Gemini 3 Pro na trójgodzinnym nagraniu z rady miejskiej i na przejrzanym benchmarku z pelikanem. Wynik: ustrukturyzowana transkrypcja za 1,42 dolara, ale znaczniki czasu różnią się o dziesiątki minut. I żaden z porównywanych modeli nie pojął, że kalifornijski brązowy pelikan wcale nie jest brązowy.
Czytaj →Radar · 2025-11-06
Asynchroniczni agenci jako wątek badawczy: zadaj pytanie, dostań pull request
Simon Willison opisuje workflow fire-and-forget z Claude Code, Codex i innymi agentami: zadajesz pytanie badawcze, agent pracuje na serwerze i zgłasza pull request. Kod jest dowodem wykonalności, nie tylko tekstem.
Czytaj →Radar · 2025-11-02
Dwie nowe prace o prompt injection: Rule of Two ujawnia ryzyko strukturalne, atakujący adaptuje się do obrony
Simon Willison zwrócił uwagę na dwie nowe prace o prompt injection dla agentów. Rule of Two od Meta mówi, że system jest bezpieczny tylko wtedy, gdy posiada naraz co najwyżej dwie z trzech właściwości: przyjmuje niezaufane wejście, uzyskuje dostęp do wrażliwych danych, zmienia stan lub komunikuje się na zewnątrz. Druga praca badaczy z OpenAI, Anthropic i DeepMind wykazała, że 12 opublikowanych zabezpieczeń zostało ominętych przez adaptacyjne ataki z ponad 90-procentową skutecznością.
Czytaj →Radar · 2025-10-20
Claude Code for web: asynchroniczny agent kodujący w sandboxie, bez laptopa
Simon Willison przetestował Claude Code for web: Anthropic opakował doświadczenie lokalnego Claude Code w hostowany sandbox i udostępnił je z webu oraz telefonu. Najważniejsza zmiana to nie mocniejszy model, lecz zmiana workflow: agenci kodujący stają się użyteczniejsi, gdy mogą działać asynchronicznie i bezpiecznie poza laptopem.
Czytaj →