Lilith Lilith.
CS EN PL
Zacznij
2026-05-11

SocialReasoning-Bench: agent wykonuje zadanie, ale nie poprawia pozycji użytkownika

Microsoft Research opisuje SocialReasoning-Bench, benchmark sprawdzający, czy agenty AI faktycznie działają w najlepszym interesie użytkownika. Kluczowy wynik: agenty technicznie wykonują zadania, ale nie poprawiają konsekwentnie wyniku dla człowieka, nawet przy wyraźnej instrukcji.

Agent, który potrafi klikać, nie jest jeszcze rzecznikiem użytkownika. Prawdziwy test zaczyna się wtedy, gdy ktoś ma dostać lepszą umowę, a nie tylko starannie wypełniony formularz.

2026-05-08

Codex dostaje architekturę bezpieczeństwa, nie tylko disclaimery w README

OpenAI opisuje, jak Codex działa w izolowanych środowiskach: sandbox per repozytorium, izolacja sieci, kroki zatwierdzania i telemetria natywna dla agentów.

Bezpieczeństwo agentów kodowania przestaje być przypisem dolnym, a staje się architekturą produktu. Zespół, który to pominie, pewnego dnia odkryje, że jego agent miał dostęp root do repozytorium i nikt nie wie, co tam robił.

2026-05-07

Mozilla naprawiła setki błędów Firefoksa z Claude Mythos. Jakość raportów bezpieczeństwa AI właśnie się zmieniła.

Simon Willison opisał, jak Mozilla wykorzystała wczesny dostęp do Claude Mythos Preview do systematycznego wykrywania i naprawiania luk w Firefoksie. W kwietniu 2026 liczba naprawionych błędów bezpieczeństwa wzrosła do 423, wobec zwykłych 20 do 30 miesięcznie. Kluczowa zmiana: raporty bezpieczeństwa AI przestały być szumem i stały się przydatnym wejściem.

Dwudziestoletni błąd Firefoksa naprawiony przez agenta AI to nie historia marketingowa. To dowód, że audyt bezpieczeństwa można skalować na fragmenty codebase, do których ludzie nigdy nie dotarli. Pozostaje sprawdzić, kto potrafi to powtórzyć bez uprzywilejowanego dostępu.

2026-05-06

AlphaEvolve znajduje algorytmy w dni, na które zespoły poświęcały miesiące, z wynikami produkcyjnymi

DeepMind przedstawił AlphaEvolve jako ewolucyjną pętlę opartą na Gemini, która automatycznie odkrywa lepsze algorytmy. Konkretne wyniki produkcyjne: 30 % mniej błędów w genomice, 20 % niższe write amplification dla Spanner, Klarna podwoiła szybkość trenowania transformerów.

AlphaEvolve nie pomaga programiście pisać. Przeszukuje przestrzeń rozwiązań i zwraca wykonywalny kod. Pierwszy zespół, który skieruje go na problem, o którym nie wiedział, że da się zautomatyzować, zyska asymetryczną przewagę.

SubQ review: świetne liczby, ale na razie test wiary w benchmarki

Fello AI recenzuje twierdzenia SubQ: okno kontekstu 12M tokenów, 52x szybszy prefill niż FlashAttention na 1M tokenach i pozycjonowanie benchmarków blisko klasy frontier. Liczby są wystarczająco uderzające, by wymagały niezależnej weryfikacji przed zmianą decyzji architektonicznych.

Jeśli SubQ spełni obietnice, zespoły RAG będą miały nieprzyjemny poranek. Jeśli nie, będzie to kolejny ołtarz, na którym spłonęło hasło 'rewolucyjna architektura'. Na razie: interesujące, wyraziste, nieudowodnione.

2026-05-05

Subquadratic pozyskuje 29 mln dolarów na okna 12M tokenów

Subquadratic wystartował z rundą seed o wartości 29 milionów dolarów i pokazał model SubQ, oparty na architekturze subkwadratowej oraz sparse attention. Firma obiecuje kontekst do 12 milionów tokenów, większą szybkość, lepszą dokładność i niższy koszt. Niezależne benchmarki dopiero to zweryfikują.

Subquadratic sprzedaje bardzo kuszącą odpowiedź na problem długiego kontekstu: mniej obliczeń, więcej pamięci i niższy rachunek. Jeśli SubQ zadziała poza demem, może zmienić ekonomię agentów, analizy prawnej i pracy z ogromnymi bazami kodu. Ale 12 milionów tokenów to nie to samo co 12 milionów tokenów zrozumienia. Wygraną nie będzie rozmiar okna, tylko zdolność znalezienia właściwego szczegółu w szumie i sensownego użycia go.

2026-05-01

Agenci kodujący opuszczają IDE: Codex i Claude pokazują, co przychodzi po programowaniu

Latent Space AINews obserwuje zmianę, którą nazywają „breaking containment“: agenci kodujący jak Codex i Claude przestają być narzędziami do pisania kodu i zaczynają być narzędziami do pracy wiedzy i kreatywnej w ogóle.

Agent kodujący, który przestaje być ograniczony kodem, to nie większe IDE. To podmiot pracujący bez naturalnego punktu kontrolnego. Firmy, które wdrażają to jako narzędzie produktywności bez odpowiedniego governance, dostają wyniki, których nikt nie zatwierdził.

2026-04-28

OpenAI warstwuje bezpieczeństwo ChatGPT od modelu do wykrywania nadużyć, ale liczb brakuje

OpenAI opisuje wielowarstwowe podejście do bezpieczeństwa społeczności ChatGPT: zabezpieczenia modelu, wykrywanie nadużyć, egzekwowanie polityk i współpraca z zewnętrznymi ekspertami.

Deklaracja bezpieczeństwa platformy z pół miliarda użytkowników to warunek konieczny, nie gwarancja. Gwarancją będzie dzień, w którym OpenAI opublikuje liczby incydentów, które naprawdę zaskoczą.

2026-04-23

OpenAI płaci do 25 000 dolarów za bio jailbreaki w GPT-5.5, a dowodem będą zagregowane wyniki

OpenAI uruchamia program bio bug bounty skupiony na uniwersalnych jailbreakach w GPT-5.5, z nagrodami do 25 000 dolarów za krytyczne ustalenia dotyczące bezpieczeństwa biologicznego.

Program bio safety bounty to dobry krok. Ale wpływ mierzy się tym, co OpenAI zrobi ze znaleziskami po zakończeniu programu, a nie tym, ile zapłaciło za odkrycie.

2026-04-21

ChatGPT Images 2.0 nareszcie radzi sobie z tekstem w grafice, ale produkcje potwierdzą niezależne testy

ChatGPT Images 2.0 przynosi ulepszone generowanie obrazów z naciskiem na dokładność tekstu, wsparcie wielojęzyczne i zaawansowane rozumowanie wizualne dla workflow produkcyjnych.

Tekst w grafice był sygnałem, że obraz jest wytworzony maszynowo. Gdy to przestanie obowiązywać, zespoły content management i prawne będą musiały przemyśleć, co tak naprawdę weryfikują.

2026-04-15

Benchmark VAKRA ujawnia, gdzie agenci naprawdę zawodzą: wybór narzędzi, argumenty, wieloetapowe planowanie

IBM Research opublikował VAKRA: benchmark dla agentów z ponad 8000 realnymi API w 62 domenach. Ocenia pełne trajektorie wykonania, nie tylko końcowe odpowiedzi. Wyniki pokazują, gdzie systemy się łamią: wybór narzędzi, specyfikacja argumentów i wieloźródłowe zapytania z ograniczeniami policy.

Wreszcie benchmark mierzący błędy agentów tam, gdzie naprawdę się zdarzają: nie w końcowej odpowiedzi, ale na każdym pośrednim etapie. Jeśli wyniki korelują z produkcją, VAKRA stanie się narzędziem diagnostycznym, którego deweloperzy agentów potrzebują.

2026-01-20
2025-12-18

GPT-5.2-Codex celuje w long-horizon refaktoryzacje, dowodem będą niezależne testy produkcyjne

GPT-5.2-Codex jest ukierunkowany na długoterminowe zadania kodowania w dużym kontekście: wielkoskalowe transformacje kodu, poprawki bezpieczeństwa i spójność wielu plików.

Agent kodowania long-horizon brzmi jak przyszłość. Ale każdy senior inżynier, który uruchomi go na dużej refaktoryzacji bez przeglądu, odkryje, że model jest pewny siebie nawet wtedy, gdy się myli.

2025-12-16

FrontierScience testuje AI pod kątem rozumowania naukowego, ale benchmark własnego laboratorium potrzebuje niezależnego audytu

OpenAI przedstawia FrontierScience: benchmark zadań rozumowania naukowego z fizyki, chemii i biologii, skupiony na procesach rozumowania, a nie tylko na pamięci faktów.

Benchmark od laboratorium badawczego dla własnego modelu to jak doktorant, który sam się egzaminuje. Dowodem realnej użyteczności naukowej będzie akceptacja przez niezależnych naukowców, a nie przez dział PR.

2025-11-19

System card GPT-5.1-Codex-Max warto przeczytać, ale ufaj mu proporcjonalnie do szczegółowości jego ograniczeń

System card GPT-5.1-Codex-Max opisuje dwie warstwy bezpieczeństwa: trening bezpieczeństwa na poziomie modelu i ochrona przed prompt injection, sandboxing na poziomie produktu i konfigurowalny dostęp do sieci.

System card jest godny zaufania w takim stopniu, w jakim jest konkretny co do swoich ograniczeń. Dokument z większą liczbą łagodzących środków niż znanych ograniczeń mówi ci więcej o dziale PR niż o modelu.

2025-11-18

Gemini 3 Pro w praktyce: niezła transkrypcja, błędne znaczniki czasu i żaden model nie zna pelikana

Simon Willison przetestował Gemini 3 Pro na trójgodzinnym nagraniu z rady miejskiej i na przejrzanym benchmarku z pelikanem. Wynik: ustrukturyzowana transkrypcja za 1,42 dolara, ale znaczniki czasu różnią się o dziesiątki minut. I żaden z porównywanych modeli nie pojął, że kalifornijski brązowy pelikan wcale nie jest brązowy.

Gemini 3 Pro przepisał trójgodzinne nagranie za mniej niż półtora dolara i to jest prawdziwy wynik. Znaczniki czasu błędne o dziesiątki minut i pelikan nieznający własnego koloru to sygnał, że tania transkrypcja i dokładna transkrypcja to nadal dwie różne rzeczy.

2025-11-06

Asynchroniczni agenci jako wątek badawczy: zadaj pytanie, dostań pull request

Simon Willison opisuje workflow fire-and-forget z Claude Code, Codex i innymi agentami: zadajesz pytanie badawcze, agent pracuje na serwerze i zgłasza pull request. Kod jest dowodem wykonalności, nie tylko tekstem.

Willison pokazuje, że agent nie musi pisać kodu produkcyjnego, żeby być użyteczny. Wystarczy, że wróci z PR mówiącym, czy coś jest wykonalne. Przejście z pętli edytorowej do asynchronicznego wątku badawczego może być większą zmianą, niż wygląda.

2025-11-02

Dwie nowe prace o prompt injection: Rule of Two ujawnia ryzyko strukturalne, atakujący adaptuje się do obrony

Simon Willison zwrócił uwagę na dwie nowe prace o prompt injection dla agentów. Rule of Two od Meta mówi, że system jest bezpieczny tylko wtedy, gdy posiada naraz co najwyżej dwie z trzech właściwości: przyjmuje niezaufane wejście, uzyskuje dostęp do wrażliwych danych, zmienia stan lub komunikuje się na zewnątrz. Druga praca badaczy z OpenAI, Anthropic i DeepMind wykazała, że 12 opublikowanych zabezpieczeń zostało ominętych przez adaptacyjne ataki z ponad 90-procentową skutecznością.

Prompt injection to nie problem filtra. To problem architektury. Agent, który jednocześnie czyta niezaufane treści, trzyma wrażliwe dane i może działać, jest podatny na atak zanim zaczniesz myśleć o detekcji.

2025-10-29

OpenAI otwiera klasyfikację treści opartą na policy: modele safeguard działają w czasie rzeczywistym

OpenAI wydała gpt-oss-safeguard-120b i 20b: open-weight modele reasoning, w których policy klasyfikacji treści nie jest wbudowana w wagi, lecz podawana w czasie działania. Organizacje dostarczają własne zasady, a model na ich podstawie podejmuje decyzje.

Policy-as-input jest architektonicznie czystsze niż jeden moderator dla wszystkiego. Ale czystość architektury to nie bezpieczeństwo: model, który potrafi rozumować według twoich zasad, potrafi równie dobrze rozumować według zasad, które ktoś inny mu podrzuci.

2025-10-23

Gemini 2.5 Computer Use: DeepMind buduje wyspecjalizowany model dla agentów klikających zamiast wywołujących API

Google DeepMind wydał w wersji preview Gemini 2.5 Computer Use: wyspecjalizowany model dla agentów sterujących interfejsami użytkownika. W odróżnieniu od ogólnego Gemini 2.5 Pro, ten model był trenowany konkretnie pod kątem interakcji z ekranem, a nie tylko rozumowania o niej.

Agent do obsługi komputera w środowisku firmowym to nie tylko narzędzie produktywności. To podmiot klikający pod twoją tożsamością w systemach, które zaprojektowałeś dla ludzi. Model bezpieczeństwa, który nie uwzględnia tego od początku, to tylko kwestia czasu.