Lilith Lilith.
CS EN PL
Zacznij

Praktyczne testy modeli to inna dyscyplina niż rankingi na leaderboardach. Simon Willison przeprowadza je regularnie, a ich wartość tkwi właśnie w tym, że nie są sterylne: pokazują, jak model zachowuje się na prawdziwym materiale, w rękach ciekawskiego użytkownika.

Trójgodzinne posiedzenie rady za 1,42 dolara, ale znaczniki czasu kłamią

Willison wziął nagranie 3h33m z posiedzenia rady miejskiej i spróbował je przepisać przez Gemini 3 Pro. Oryginalny plik 74 MB zwrócił błąd wewnętrzny; po skompresowaniu do 38 MB przez ffmpeg transkrypcja się powiodła. Model wygenerował ustrukturyzowany wynik: plan posiedzenia, imiona mówców i podsumowania.

Koszt wyniósł 1,42 dolara za 320 087 tokenów wejściowych i 7 870 tokenów wyjściowych. Dla audio takiej długości to interesująca cena. Problem pojawia się, gdy próbujesz zweryfikować wynik lub odwołać się do konkretnych momentów: znaczniki czasu w transkrypcie pokazywały 1:04:00 jako koniec, podczas gdy faktyczne posiedzenie zakończyło się o 3:31:05. Transkrypt istnieje, ale nie można go wiarygodnie powiązać z oryginałem.

Benchmark pelikana v2: żaden model nie rozumiał koloru ptaka

Willison ma długoletni benchmark nazwany „pelican riding a bicycle”, używany do testowania możliwości multimodalnych. W wersji v2 zaostrzył prompt: właściwy gatunek, widoczna kieszeń i upierzenie, prawidłowe szprychy koła, kalifornijski brązowy pelikan w upierzeniu godowym.

Wyniki: Gemini 3 Pro (high thinking) był najbliżej wymagań, GPT-5.1 wyprodukował przysadzistego pelikana ze słabą integracją roweru, Claude Sonnet 4.5 miał niezgrabny układ. Kluczowa obserwacja Willisona: żaden z testowanych modeli nie zauważył, że kalifornijski brązowy pelikan w rzeczywistości nie jest brązowy.

Tania transkrypcja i dokładna transkrypcja to wciąż dwie różne rzeczy

Warto tu oddzielić dwie rzeczy. Możliwość transkrypcji długiego audio jest istotna: model z bardzo długim oknem kontekstu poradził sobie z trójgodzinnym nagraniem za mniej niż półtora dolara. To inna kategoria cenowa niż wcześniej.

Ale niedokładność znaczników czasu to realne ograniczenie, nie błąd kosmetyczny. Do użytku archiwalnego lub wyszukiwania konkretnych momentów nieużyteczne znaczniki czasu to istotny problem. Benchmark pelikana pokazuje, że modele nadal zawodnie stosują szczegółowe instrukcje specyficzne dla domeny.

Gdzie te wyniki prowadzą dalej

Warto obserwować, jak Gemini 3 Pro radzi sobie z treścią nieangielską i czy znaczniki czasu są dokładniejsze przy krótszych nagraniach. Możliwości multimodalne są użyteczne, gdy model nie dodaje pewnych siebie szumów do wyniku. Jeśli znaczniki dryfują przy materiale jednogodzinnym, prawdopodobnie dryfują też przy krótszym.

Willison będzie prawdopodobnie dalej rozwijać benchmark pelikana. To dobry przykład testu kanarykowego: szybki, łatwy do zweryfikowania i powtarzany przy każdej nowej wersji modelu.

Werdykt Lilith

Gemini 3 Pro przepisał trójgodzinne nagranie za mniej niż półtora dolara i to jest prawdziwy wynik. Znaczniki czasu błędne o dziesiątki minut i pelikan nieznający własnego koloru to sygnał, że tania transkrypcja i dokładna transkrypcja to nadal dwie różne rzeczy.

Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.

Oryginalne źródło ↗

Ze Słownika