Radar | Lilith AI

2025-10-20

00:00 · źródło ↗

Claude Code for web: asynchroniczny agent kodujący w sandboxie, bez laptopa

Simon Willison przetestował Claude Code for web: Anthropic opakował doświadczenie lokalnego Claude Code w hostowany sandbox i udostępnił je z webu oraz telefonu. Najważniejsza zmiana to nie mocniejszy model, lecz zmiana workflow: agenci kodujący stają się użyteczniejsi, gdy mogą działać asynchronicznie i bezpiecznie poza laptopem.

To mniej nowy edytor, a bardziej infrastruktura do delegowania pracy. Jeśli agent może działać w izolacji bez nieograniczonego dostępu do plików i sieci, wreszcie można mówić o produktywności bez podpisywania bezpieczeństwa własną krwią.

#agents #ai #models #coding #simonwillison #commentary

2025-09-16

00:16 · źródło ↗

Latent Space: Greg Brockman o GPT-5 i Codexie jako agentowej warstwie programowania

Latent Space opublikował spóźniony odcinek z Gregiem Brockmanem o GPT-5 i Codexie oraz komentarze redakcyjne do kombinacji GPT-5-Codex. To odcinek podcastu i drogowskaz, nie samodzielny esej analityczny.

Brockman sprzedaje Codex jako nową warstwę kontrolną dla programowania, nie lepsze autouzupełnianie. To wyraźny sygnał strategiczny. Dowodem nie będzie podcast, lecz pierwszy zespół, który wypuści go bez siatki bezpieczeństwa i odzyska działającą produkcję.

#agents #ai #models #coding #commentary #podcast

2025-09-05

10:00 · źródło ↗

Modele halucynują z powodu sposobu trenowania i ewaluacji, nie dlatego, że są głupie

Tekst OpenAI z września 2025 dociera do korzenia halucynacji: modele uczą się grać w grę ewaluacji, a nie odpowiadać prawdziwie. Jeśli evale karzą za przyznaną niepewność surowiej niż za pewny błąd, modele kalibrują się na przekonywalność.

Model, który nigdy nie mówi, że nie wie, nie jest mądry. Jest niebezpieczny. Dopóki evale nagradzają płynne odpowiedzi zamiast przyznanej niewiedzy, będziemy optymalizować w kierunku przekonywujących halucynacji.

#openai #benchmarks #ai #models #security

2025-08-27

10:00 · źródło ↗

OpenAI i Anthropic testowały wzajemnie swoje modele. Wyniki pouczające, metodologia nadal otwarta.

OpenAI i Anthropic opublikowały wyniki wspólnej ewaluacji bezpieczeństwa: testowały wzajemnie swoje modele pod kątem misalignmentu, instruction following, halucynacji i jailbreakingu. Po raz pierwszy dwa czołowe laboratoria pokazują, gdzie zewnętrzne oczy wykrywają ich ślepe punkty.

Dwa największe laboratoria AI pokazały sobie nawzajem, gdzie nie znalazły własnych błędów. Dobry początek. Pozostaje zrobić z tego regułę, a nie komunikat prasowy.

#openai #benchmarks #ai #models #security

2025-07-02

15:00 · źródło ↗

Jack Morris płynie pod prąd: teoria informacji zamiast agentów i benchmarków

Latent Space profiluje Jacka Morrisa, doktoranta, który celowo nie pracuje nad agentami, benchmarkami ani forkami VS Code. Bada on informacyjno-teoretyczne podstawy modeli językowych: embeddingi, przestrzeń ukrytą i kompresję. To wywiad podcastowy i drogowskaz.

W czasie, gdy prawie każdy badacz buduje kolejnego agenta albo nowy benchmark, warto obserwować tych, którzy pytają, co modele faktycznie robią pod maską. Skupienie Morrisa na teorii informacji i reprezentacjach ukrytych to cichszy temat niż Codex, ale jeśli przyniesie wyniki, zmieni sposób projektowania embeddingów i systemów retrieval na kolejną dekadę.

#agents #benchmarks #ai #models #coding #commentary #podcast

2025-06-25

00:00 · źródło ↗

Gartner: ponad 40% projektów agentic AI zostanie anulowanych do 2027 roku

Gartner szacuje, że ponad 40% projektów agentic AI zostanie anulowanych do końca 2027 roku z powodu kosztów, niejasnej wartości lub słabej kontroli ryzyka. Sygnał nie brzmi „agenci umarli“. Brzmi: PoC bez dyscypliny zderzają się z kosztami, governance i odpowiedzialnością.

To moment, w którym agenci przestają być demem, a zaczynają być pracą systemową. Jeśli zespół nie umie określić uprawnień, kosztu ukończonego zadania i odpowiedzialności, nie ma produktu. Ma drogie urządzenie do wymówek.

#agents #ai-engineering #workflows #reliability