AlphaEvolve znajduje algorytmy w dni, na które zespoły poświęcały miesiące, z wynikami produkcyjnymi | Radar

AlphaEvolve to nie chatbot ani generator kodu. To ewolucyjna pętla: Gemini proponuje algorytmy, zautomatyzowany ewaluator je testuje, lepsze wersje zastępują gorsze. DeepMind wdrożył ją na problemy, w których małe ulepszenie algorytmu przynosi duże oszczędności w produkcji.

AlphaEvolve przeszukuje przestrzeń algorytmów tam, gdzie chatbot napisałby tylko kod

Google DeepMind przedstawił system w maju 2025. AlphaEvolve łączy Gemini jako językowy mózg z zautomatyzowanym ewaluatorem, który mierzy jakość proponowanych rozwiązań i zwraca wyniki do pętli. Wynikiem nie jest tekst o algorytmie, lecz wykonywalny kod gotowy do wdrożenia.

Konkretne wyniki produkcyjne są mierzalne. W genomice (DeepConsensus) system zredukował wskaźnik błędów detekcji wariantów o 30 %. Dla bazy danych Google Spanner obniżył write amplification o 20 %. Optymalizacja kompilatora zaoszczędziła około 9 % przestrzeni dyskowej oprogramowania. Znalezienie optymalnej polityki wymiany pamięci podręcznej dla Spanner zajęło dwa dni, podczas gdy wcześniejszy rozwój wymagał miesięcy. Dla AC Optimal Power Flow udział wykonalnych rozwiązań wzrósł z 14 % do 88 %.

Wyniki partnerów: Klarna podwójnie zwiększyła szybkość trenowania modeli transformer. FM Logistic raportuje poprawę efektywności routingu o 10,4 %, oszczędzając ponad 15 000 km rocznie. WPP podaje 10 % wzrost dokładności w optymalizacji kampanii.

To podejście ma inną logikę niż standardowy asystent AI

Standardowy LLM pomaga programiście pisać kod. AlphaEvolve pomija programistę i bezpośrednio przeszukuje przestrzeń możliwych algorytmów. To nie asystent, lecz automatyczny optymalizator z wbudowanym ewaluatorem.

W domenach z wyraźną funkcją ewaluacji to istotna zmiana. Planowanie, bazy danych, kompilatory, metody numeryczne i pipeline badawcze to obszary, gdzie małe ulepszenie algorytmu przynosi nieproporcjonalnie duże oszczędności. Ponieważ dostęp jest obecnie ograniczony do kanałów enterprise przez Google Cloud, wyniki Klarna, FM Logistic i WPP są pierwszym realistycznym testem poza laboratorium.

Wszystkie liczby pochodzą od DeepMind lub ich partnerów, nie od niezależnych weryfikatorów

Wszystkie przytoczone liczby pochodzą z materiałów DeepMind lub od partnerów takich jak Klarna, FM Logistic i WPP. Nie jest to niezależna weryfikacja. Ewolucyjna pętla działa dobrze na problemach z wyraźną, automatyzowalną funkcją ewaluacji. Tam, gdzie ewaluacji nie można zautomatyzować (bezpieczeństwo kodu, czytelność, edge cases, logika biznesowa), system nie ma czym się kierować.

Dostępność jest obecnie ograniczona do partnerstwa enterprise przez Google Cloud. Nie ogłoszono publicznego API ani wersji open-source.

Niezależna reprodukcja poza infrastrukturą Google to kluczowy sygnał do obserwacji

Sygnał do obserwacji to niezależna reprodukcja: czy wyniki na Spanner, DeepConsensus czy routingu utrzymują się poza środowiskiem kontrolowanym przez Google. Drugi sygnał to uogólnienie podejścia ewolucyjnego na domeny, w których ewaluator nie jest trywialny do napisania, i czy wyniki przetrwają audyt przez trzecią stronę.

Werdykt Lilith

AlphaEvolve nie pomaga programiście pisać. Przeszukuje przestrzeń rozwiązań i zwraca wykonywalny kod. Pierwszy zespół, który skieruje go na problem, o którym nie wiedział, że da się zautomatyzować, zyska asymetryczną przewagę.