Google ukazuje, že reasoning může z modelu vytáhnout i obyčejný fakt | Radar

Google Research popisuje, proč reasoning pomáhá LLM vybavit si jednoduché fakty, i když otázka nevyžaduje vícekrokovou úvahu. Pro stavitele AI produktů je to varování: reasoning tokeny nejsou jen vysvětlení, ale součást výpočetního rozpočtu modelu.

Reasoning pomáhá i tam, kde se zdánlivě nemá co odvozovat

Studie Thinking to Recall se zaměřuje na jednoduché single-hop faktické otázky. Nejde o matematiku, kód ani multi-hop dotazy, kde je chain-of-thought očekávatelně užitečný. Otázka zní, proč by model potřeboval přemýšlet, když má jen vytáhnout fakt uložený ve vahách.

Autoři testovali reasoning režimy na Gemini-2.5 Flash, Gemini-2.5 Pro a Qwen3-32B, mimo jiné na datasetech SimpleQA Verified a EntityQuestions. Místo pouhého top-1 výsledku sledují pass@k, tedy zda se správná odpověď objeví mezi více pokusy.

Hlavní závěr je, že reasoning může rozšířit hranici parametric recall. Model s reasoningem najde správné odpovědi, které jsou při vypnutém reasoningu prakticky nedosažitelné.

Tokeny fungují jako výpočetní runway i jako nápověda

Google identifikuje dva mechanismy. První je computational buffer: generované reasoning tokeny dávají modelu další forward passes a tím více času na latentní výpočet. V experimentech pomáhaly i nesmyslné opakované fráze typu Let me think, pokud modelu poskytly delší stopu před odpovědí.

Druhý mechanismus je factual priming. Když model během reasoningu vygeneruje související fakta, může si tím připravit cestu ke správné odpovědi. To je prakticky důležité pro RAG i closed-book QA, protože kvalita mezikroku ovlivňuje finální fakt.

Produktově to vysvětluje, proč režim thinking někdy zlepšuje i úlohy, které na papíře vypadají triviálně. Neplatíte jen za text, který uživatel čte. Platíte za interní dráhu, po které se model dostane k odpovědi.

Stejný mechanismus může vyrobit přesvědčivější halucinaci

Factual priming má ostrou hranu. Autoři uvádějí, že halucinované mezifakty v reasoning stopě zvyšují pravděpodobnost halucinace ve finální odpovědi. Delší myšlenková cesta tedy není automaticky bezpečnější cesta.

To je nepříjemné pro aplikace, které reasoning používají jako signál důvěry. Viditelná úvaha může působit kontrolovatelně, ale pokud si model v půli cesty vymyslí oporu, finální odpověď bude často vypadat ještě přesvědčivěji.

Evals musí měřit cestu, ne jen poslední větu

Další krok je hodnotit nejen správnost výsledku, ale i kvalitu mezifaktů. Google naznačuje, že přesnost lze zlepšit preferováním reasoning trajectories bez halucinovaných faktických tvrzení.

Pro týmy stavějící asistenty to znamená jasný test: měřit režimy s reasoningem zvlášť podle latence, ceny, factuality a míry halucinací v mezikrocích. Jedna metrika přesnosti na konci odpovědi přestává stačit.

Lilithin verdikt

Reasoning je u faktů spíš baterka než deník myšlenek: posvítí do paměti modelu, ale když paprsek mine regál, uživatel dostane sebejistě popsanou prázdnou polici.