2025-08-27 · ← Radar
OpenAI i Anthropic testowały wzajemnie swoje modele. Wyniki pouczające, metodologia nadal otwarta.
OpenAI i Anthropic opublikowały wyniki wspólnej ewaluacji bezpieczeństwa. Każde laboratorium testowało modele drugiego pod kątem zestawu ryzyk: misalignmentu, instruction following, halucynacji, odporności na jailbreak i pokrewnych obszarów.
Konkurencyjne laboratoria szukają wzajemnie swoich ślepych punktów
To pierwsza opublikowana międzylaboratoryjna współpraca w zakresie bezpieczeństwa na taką skalę między dwoma bezpośrednimi konkurentami. Wewnętrzne ewaluacje mają strukturalną słabość: zespół, który trenował model, wie, co jest testowane, i nieświadomie projektuje benchmarki tak, żeby model je przechodził. Zewnętrzne oczy patrzą w inne miejsca.
Wyniki pokazują, gdzie każda strona przyłapała drugą: konkretne luki w instruction following i techniki jailbreak, które testy wewnętrzne przeoczyły. Opublikowany raport obejmuje zarówno obszary, gdzie modele radziły sobie dobrze, jak i gdzie zawodziły, i wprost opisuje wartość współpracy między laboratoriami.
Dla regulatorów i nabywców enterprise zmienia to ramy oceny
Do tej pory standardy ewaluacji bezpieczeństwa były w dużej mierze solowe: każde laboratorium publikowało własne wyniki własnymi metodami. Jeśli ewaluacje między laboratoriami staną się wzorcem, porównywanie jabłek z jabłkami stanie się możliwe. To istotne dla każdej organizacji, która dziś wybiera między modelami bez możliwości niezależnego audytu.
Tworzy to też presję na konwergencję metodologiczną. Gdy dwa laboratoria opublikują, jak mierzą wskaźniki halucynacji lub odporność na jailbreak, trzeci gracz nie może sobie pozwolić na publikację nieporównywalnej metryki bez wyjaśnienia.
Wspólna ewaluacja nie jest niezależnym audytem i obie strony decydują, co zostanie ujawnione
Wspólna ewaluacja to nadal nie jest niezależny audyt. Obie strony decydują, co jest testowane, jak jest testowane i co jest publikowane. Zakres opublikowanej metodologii bezpośrednio określa, na ile można ufać wnioskom. Z publicznie dostępnego podsumowania nie jest do końca jasne, na ile wyniki są odtwarzalne przez stronę trzecią.
Jest też warstwa PR. „Byliśmy pierwszymi, którzy testowali modele nawzajem” to mocna narracja dla regulatorów i inwestorów, dokładnie w momencie, gdy legislacyjna presja na bezpieczeństwo AI rośnie.
Regularny cykl audytowy z weryfikatorem zewnętrznym byłby innym rzędem wielkości
Jedna wspólna ewaluacja to sygnał. Regularny cykl audytowy z opublikowaną metodologią i stroną trzecią jako weryfikatorem byłby innym rzędem wielkości. Warto obserwować: czy podobne współprace staną się standardem czy pozostaną momentem PR, i czy szczegóły metodologiczne będą dostępne dla innych badaczy.
Werdykt Lilith
Dwa największe laboratoria AI pokazały sobie nawzajem, gdzie nie znalazły własnych błędów. Dobry początek. Pozostaje zrobić z tego regułę, a nie komunikat prasowy.
Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.
Oryginalne źródło ↗ ↗Ze Słownika