#badania | Lilith AI

⌕

CS EN PL

Zacznij

Z Radaru

Radar · 2026-06-15

Trzynaście słów na Reddicie może zatruć odpowiedź AI

Badanie opisane przez 404 Media twierdzi, że 13 słów w pobranym fragmencie tekstu z Reddita, Wikipedii, Quory lub Facebooka może popchnąć agentów AI w stronę spamu albo scamu. Dla AI search oznacza to przesunięcie SEO w obszar prompt injection i moderacji user-generated content.

Radar · 2026-06-15

Google daje enterprise RAG strażnika, który wie, kiedy nie odpowiadać

Google przedstawił agentic RAG dla Gemini Enterprise Agent Platform, który sprawdza przed odpowiedzią, czy ma wystarczający kontekst. Dla firm ważniejszy jest ten hamulec niż kolejna ładna warstwa wyszukiwania.

Radar · 2026-06-15

Lista paperów LLM Raschki pokazuje, jak badania rozchodzą się w warstwy produkcyjne

Sebastian Raschka opublikował kuratorską listę paperów LLM od stycznia do maja 2026 roku. To użyteczny filtr dla zespołów, które chcą oddzielić research feed od tematów ważnych dla architektury, agentów i inference.

Radar · 2026-06-09

Gemini 3.5 Live Translate przenosi tłumaczenie z napisów do żywego głosu

Google wprowadza Gemini 3.5 Live Translate do near real-time speech-to-speech translation w ponad 70 językach. Użytkownicy zobaczą wygodę, ale firmy będą patrzeć na latency, audit i zaufanie do głosu, który mówi za kogoś innego.

Radar · 2026-06-09

Gemma 4 12B przenosi multimodalność prosto na laptop

Google przedstawił Gemma 4 12B jako zunifikowany multimodalny model encoder-free zaprojektowany do wysokiej wydajności bezpośrednio na laptopie. Praktyczne pytanie brzmi, czy model 12B da wystarczającą jakość dla lokalnych lub edge scenariuszy bez ciężkiej infrastruktury chmurowej.

Radar · 2026-06-03

GPT-Rosalind przechodzi od benchmarków do kontrolowanej nauki

OpenAI zaktualizowała GPT-Rosalind dla life sciences i oferuje go w research preview wybranym organizacjom globalnie. Ważniejszy od tabeli wyników jest ruch w stronę połączenia modelu, Codexu i narzędzi bioinformatycznych w audytowalne workflow.

Radar · 2026-06-01

Search nie powinien być przyciskiem. Powinien być programowalnym narzędziem dla agentów

Perplexity opisuje Search as Code: architekturę, w której agent nie wywołuje jednego monolitycznego search engine, lecz składa retrieval pipeline jako kod. Sednem nie jest ładniejsze API, tylko kontrola nad tym, jak dowody są znajdowane, filtrowane i weryfikowane.

Radar · 2026-05-30

Service worker przechwytuje żądania HTTP i obsługuje je w aplikacji Python ASGI działającej bezpośrednio w przeglądarce

Simon Willison eksperymentuje z uruchamianiem aplikacji Python ASGI bezpośrednio w przeglądarce przez Pyodide i service worker. FastAPI i kompletne Datasette 1.0a31 działają. Celem jest dystrybucja: demo lub narzędzia danych jako samowystarczalne strony bez serwera.

Radar · 2026-05-28

Google chce, żeby agent proponował hipotezy i pisał kod eksperymentalny zamiast naukowca

Na I/O 2026 Google Research pokazał Gemini for Science, ERA i Co-Scientist jako systemy, w których AI przejmuje środkowe etapy badań: przegląd literatury, pisanie kodu, iterację hipotez. Ryzyko fałszywej pewności i vendor lock-in jest poważne.

Radar · 2026-05-28

Data Formulator 0.7 próbuje przebudować analitykę danych enterprise wokół agentów AI

Microsoft Research wydał Data Formulator 0.7, środowisko analityczne, w którym agenty AI pomagają w eksploracji, transformacji i wizualizacji danych enterprise. Kluczowe pytanie: czy agent poradzi sobie z brudnymi, chronionymi danymi poza demo.

Radar · 2026-05-26

Anthropic mianuje KiYoung Choia szefem Korei przed otwarciem biura w Seulu

Anthropic mianował KiYoung Choia dyrektorem przedstawicielskim w Korei przed otwarciem biura w Seulu, wskazując na wyjątkowo silne użycie Claude w kraju.

Radar · 2026-05-25

Chris Olah z Anthropic ostrzega Watykan przed bodźcami frontier AI

Papież Leon XIV ogłosił encyklikę Magnifica humanitas o ochronie osoby ludzkiej w epoce sztucznej inteligencji. Podczas prezentacji w Watykanie Chris Olah z Anthropic ostrzegł, że laboratoria tworzące modele frontier działają pod presją bodźców, które mogą kolidować z dobrem publicznym.

Radar · 2026-05-12

Parameter Golf pokazuje, jak agenci kodujący zmieniają tempo iteracji badawczej

OpenAI opublikowalo wnioski z Parameter Golf: ponad 1 000 uczestników, ponad 2 000 zglосzeń, limit 16 MB na artefakt i 10 minut treningu na 8x H100. Najważniejsza nie jest tylko kompresja modeli. Agenci kodujący zmienili tempo iteracji badawczej.

Radar · 2026-05-06

AlphaEvolve znajduje algorytmy w dni, na które zespoły poświęcały miesiące, z wynikami produkcyjnymi

DeepMind przedstawił AlphaEvolve jako ewolucyjną pętlę opartą na Gemini, która automatycznie odkrywa lepsze algorytmy. Konkretne wyniki produkcyjne: 30 % mniej błędów w genomice, 20 % niższe write amplification dla Spanner, Klarna podwoiła szybkość trenowania transformerów.

Radar · 2025-10-23

Gemini 2.5 Computer Use: DeepMind buduje wyspecjalizowany model dla agentów klikających zamiast wywołujących API

Google DeepMind wydał w wersji preview Gemini 2.5 Computer Use: wyspecjalizowany model dla agentów sterujących interfejsami użytkownika. W odróżnieniu od ogólnego Gemini 2.5 Pro, ten model był trenowany konkretnie pod kątem interakcji z ekranem, a nie tylko rozumowania o niej.

Ze Słownika

Słownik

AI-assisted research — model jako partner badawczy

AI-assisted research używa modeli do szukania hipotez, pisania kodu, testowania wariantów i czytania literatury. To nie automatyczna nauka. To szybsza pętla badawcza z nowymi sposobami na potknięcie.

Słownik

Ewaluacje i benchmarki — pomiar zamiast wrażeń

Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.