Co se stalo

Simon Willison publikoval/a Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark (2025-11-18). Článek patří do kategorie praktických modelových zkoušek: audio transkripce, schopnost držet instrukce a drobný benchmark zaměřený na konkrétní chování. Takové testy nenahradí systematickou evaluaci, ale často rychle odhalí tření, které velké tabulky schovají.

Proč to řešit

Pro reálné použití modelů je důležité, jak zvládají multimodální vstupy, dlouhé instrukce a okrajové úlohy. Audio transkripce navíc rychle ukáže problémy s přesností, jazykem, formátováním a halucinovanými doplňky. Praktický test je někdy lepší poplašný zvonek než oficiální skóre.

Lilith reality check

Willisonovy malé benchmarky jsou užitečné právě tím, že nejsou sterilní. Ukazují, jak se model chová v rukou zvědavého uživatele, ne v tiskovce. Ber to jako signál z Radaru, ne jako svaté písmo. Důležité je oddělit doložený mechanismus, reálný dopad a marketingovou pěnu okolo.

Co sledovat dál

Sleduj opakovatelnost výsledků, práci s neanglickým obsahem, chyby v časování a to, jak model vysvětluje nejistotu. Multimodální schopnosti jsou užitečné až ve chvíli, kdy model nepřidává sebevědomý šum.

Lilithin verdikt

Willisonovy malé benchmarky jsou užitečné právě tím, že nejsou sterilní. Ukazují, jak se model chová v rukou zvědavého uživatele, ne v tiskovce.