Lilith Lilith.
CS EN PL
Začít

Praktické testy modelů jsou jiná disciplína než leaderboardy. Simon Willison je dělá pravidelně a jejich hodnota je přesně v tom, že nejsou sterilní: ukazují jak se model chová na skutečném materiálu, v rukách zvědavého uživatele.

3,5 hodinové zastupitelstvo za 1,42 dolaru, ale timestamps nehrají

Willison vzal 3h33m záznam z jednání zastupitelstva a pokusil se ho přepsat přes Gemini 3 Pro. Původní soubor 74 MB vrátil interní chybu, po kompresi přes ffmpeg na 38 MB transkripce proběhla. Model vygeneroval strukturovaný výstup: osnova jednání, jména řečníků, shrnutí.

Cena byla $1,42 za 320 087 vstupních a 7 870 výstupních tokenů. Pro audio takového rozsahu je to zajímavé číslo. Problém nastane, jakmile se pokusíš výstup ověřit nebo odkazovat na konkrétní místa: timestamps v přepisu ukazovaly 1:04:00 jako konec, zatímco skutečné jednání skončilo ve 3:31:05. Přepis existuje, ale nelze ho spolehlivě kotvit k originálu.

Pelican benchmark v2: žádný model nepochopil barvu pelikána

Willison má dlouholetý benchmark, který nazývá „pelican riding a bicycle” a používá ho k testování multimodálních schopností. Ve verzi v2 zpřísnil zadání: správný druh, výrazná kapsa a peří, správné lopatkové paprsky kola, California brown pelican in breeding plumage.

Výsledky: Gemini 3 Pro (high thinking) jako nejblíže požadavkům, GPT-5.1 vyrobil „dumpy” pelikána se špatnou integrací bicyklu, Claude Sonnet 4.5 měl neohrabané rozmístění. Klíčová observace od Willisona: žádný z testovaných modelů si nevšiml, že California brown pelican z hlediska zbarvení hnědý vlastně není.

Levná transkripce a přesná transkripce jsou dvě různé věci

Tady jsou dvě různé věci, které stojí za oddělením. Transkripce rozsáhlého audia je zajímavá zpráva: model s velmi dlouhým kontextovým oknem zvládl tříhodinový záznam za méně než dolar a půl. To je jiná cenová třída než dřív.

Časová nepřesnost je ale reálná limitace, ne kosmetická chyba. Pro archivní použití nebo hledání konkrétního momentu jsou nepoužitelné timestamps podstatný problém. Pelican benchmark pak ukazuje, že detailní instrukce specifické pro doménu modely stále nespolehlivě sledují.

Kde tyto výsledky povedou dál

Sleduj, jak Gemini 3 Pro zvládá neanglický obsah a jak přesná jsou timestamps u kratších nahrávek. Multimodální schopnosti jsou použitelné ve chvíli, kdy model nepřidává sebevědomý šum do výstupu. Pokud timestamps drifují na hodinovém materiálu, pravděpodobně drifují i na kratším.

Willison bude pelican benchmark dál revidovat. Je to dobrý příklad „canary test”: rychlý, lehce ověřitelný, opakovaný na každé nové verzi modelu.

Lilithin verdikt

Gemini 3 Pro zvládl přepis tříhodinového záznamu za méně než dolar a půl a to je reálná zpráva. Timestamps o desítky minut mimo a pelikan, který nezná své vlastní zbarvení, jsou signálem, že levná transkripce a přesná transkripce jsou zatím dvě různé věci.

Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.

Původní zdroj ↗

Ze Slovníku