SQLite dodało plik AGENTS.md z jasną zasadą dla osób kierujących agentów AI na codebase: kod agentów nie jest przyjmowany, ale dobre zgłoszenia błędów z reprodukowalnym testem mogą być użyteczne. Mały plik, duży sygnał dla utrzymania krytycznego open source.
To dojrzała odpowiedź na spam AI: nie zakazywać wszystkiego, tylko jasno określić, co ma wartość. Patch od agenta nie, reprodukowalny test tak. Maintainerzy chronią czas, jakość i czystość prawną projektu.
IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.
Frontier model z wynikiem 47 % w diagnostyce SRE to nie awaria modelu. To awaria hype. Dla tych, którzy w tym roku podpisują enterprise kontrakty na agenta AI do operacji IT, te liczby to pierwsza dawka rzeczywistości.
Google Research pokazuje private analytics łączące secure aggregation z TEEs dla bezpieczniejszego mierzenia on-device AI.
To mniej efektowne niż nowy model, ale ważniejsze dla wdrożeń. Gdzieś w kieszeni użytkownika działa AI, a Google chce wiedzieć, co robi, bez zaglądania mu przez ramię.
Last Week in AI #341 łączy porażkę Muska z OpenAI, aktualizacje Gemini z IO 2026 i inne sygnały z rynku AI.
Zatłoczona tablica, na której sędzia, zespół produktowy Google i badacze OpenAI przypinają własne kartki. Żadnej jednej wielkiej tezy o rynku AI za tym nie ma.
OpenAI, Thrive Holdings i Crete zbudowały Tax AI dla ponad trzydziestu firm księgowych. Pilotaż obsłużył 7 000 deklaracji, oszczędza około jednej trzeciej czasu specjalistów i w sześć tygodni mocno poprawił wyniki dzięki pętli informacji zwrotnej z Codexem.
Najważniejsza nie jest sama automatyzacja formularzy podatkowych, lecz model działania. Tax AI zamienia realne błędy z pracy specjalistów w evale i zadania dla Codexa, więc produkt poprawia się na przypadkach, które faktycznie spowalniają firmy. To praktyczny obraz oprogramowania agentowego: człowiek zachowuje odpowiedzialność, system przejmuje powtarzalną pracę, a zespół produktowy szybciej przechodzi od awarii do poprawki.