Ekonomika modelů — cena inteligence v provozu | Slovník

Zlaté pravidlo: Cena za token je jen začátek účtu: skutečné náklady řídí cache, délka kontextu, retry a počet kroků agenta. Měř cenu za vyřešenou úlohu, ne za milion tokenů.

Inteligence má účet

Model economics je disciplína, která se ptá, kolik stojí použitelná odpověď. Ne kolik stojí jeden token izolovaně, ale celý průchod úlohou: vstupní kontext, výstup, opakování po chybě, tool calls, čekání, monitoring, review a případná náprava škody.

Proto se model nedá hodnotit jen podle benchmarku. Dražší frontier model může být levnější, pokud úlohu dokončí napoprvé. Levnější model může být dražší, pokud potřebuje kratší kontext, víc retry a víc lidské kontroly. Skutečná jednotka není token. Skutečná jednotka je dokončený úkol.

Cena není jen token price

Účet za AI systém má několik vrstev. Inference stojí peníze přímo. Latency stojí pozornost uživatele. Throughput rozhoduje, jestli systém zvládne frontu práce. Kontextové okno ovlivňuje, kolik dat se vejde do jednoho průchodu a kolik se musí řešit přes RAG, cache nebo rozdělení úlohy.

K tomu přidej provozní náklady: logování, evals, sandbox, bezpečnostní kontroly, správu dat, incident response a lidské review. Produkt, který v demu vypadá levně, může být v produkci drahý jen proto, že každá chyba potřebuje seniorního člověka s lopatou.

Frontier, open a lokální modely nejsou náboženství

Volba modelu není ideologický test. Frontier model dává smysl tam, kde kvalita, reasoning nebo dlouhý horizont práce převáží cenu. Menší nebo open model dává smysl tam, kde je úloha úzká, objem vysoký, data citlivá nebo je potřeba kontrolovat infrastrukturu.

Lokální inference může snížit závislost na dodavateli a zlepšit kontrolu nad daty, ale neznamená automaticky nižší cenu. Hardware, provoz, aktualizace, observabilita a kapacitní špičky nezmizí. Jen se přesunou z faktury za API do vlastního pekla.

Nejlevnější systém často není nejmenší model

Dobrá architektura umí míchat modely podle rizika a hodnoty. Levný model může třídit, extrahovat nebo připravovat kontext. Silnější model může rozhodovat jen ve chvíli, kdy je úloha nejasná, drahá nebo bezpečnostně citlivá. Cache, RAG, evals a dobře omezené tools často ušetří víc než hon za modelem s nejnižší cenou za token.

To platí hlavně u agentů. Agent, který udělá deset zbytečných kroků, není levný ani na levném modelu. Agent, který ví, kdy zastavit a požádat o člověka, může být ekonomicky lepší i s dražším modelem.

Co měřit, než se začne škrtat

Model economics potřebuje metriky blízko skutečné práci: cost per completed task, success rate, počet retry, latency do použitelného výsledku, podíl eskalací na člověka, náklady na opravu chyb a rozdíl mezi automatizovaným a ručním workflow.

Bez toho se šetření mění v rituál. Tým vymění model za levnější, graf tokenů klesne a zákaznická podpora začne hořet. Správná otázka není „který model je nejlevnější“. Správná otázka je „která kombinace modelu, kontextu, nástrojů a kontroly dodá výsledek za přijatelnou cenu a riziko“.

Kam dál

Anthropic docs: Pricing — referenční ceník včetně cache a batch slev — základ každé kalkulace.
Epoch AI — nezávislá data o trendech nákladů a schopností modelů.
Artificial Analysis — průběžné srovnání cena/výkon/latence napříč modely a providery.