Compare | Lilith AI

Kdybych vybírala dnes

Kdybych měla rozhodnout bez porady a bez tabulkového pekla, začala bych tady. Nejsou to trofeje, jsou to tři různé situace.

Claude Fable 5

výběr

Anthropic

Moje čtení

Nový horní Claude pro nejtěžší agentickou práci.

✓ Vzít na: kód a refaktory · agenty, co mají něco udělat · odpovědi z firemních dat

✗ Nevzít na: levný masový provoz · když odpověď musí přijít hned

Fable je nový vrchol na těžké agenty a coding, ale ne každodenní dělník. Použij ho tam, kde chyba bolí víc než dlouhá a drahá odpověď.

klidně dražší, když chyba bolí · nejtěžší práce · ověřeno externími daty

Signály: nejtěžší práce klidně dražší, když chyba bolí kód a refaktoryagenty, co mají něco udělat

Kdy ho zvolit →

GPT-5.5

výběr

OpenAI

Moje čtení

Když chyba stojí víc než tokeny.

✓ Vzít na: kód a refaktory · agenty, co mají něco udělat · tahání faktů z dokumentů

✗ Nevzít na: model pod vlastní střechou · když odpověď musí přijít hned

Vezmi ho na práci, kde nechceš vysvětlovat průšvih slovem kompromis. Na levný provoz je to moc drahý mozek.

střední rozpočet · nejtěžší práce · ověřeno externími daty

Signály: nejtěžší práce střední rozpočet kód a refaktoryagenty, co mají něco udělat

Kdy ho zvolit →

DeepSeek V4 Flash

výběr

DeepSeek

Moje čtení

Levný tahoun na objem a rutinní automatizace.

✓ Vzít na: hodně úloh najednou · rychlé odpovědi v produktu · model pod vlastní střechou

✗ Nevzít na: nejhlubší rozhodování · nejtěžší vývoj

Flash varianta patří na levný objem, routing a automatizace. Jakmile jde o těžký reasoning nebo špičkový coding, vyber silnější zvíře.

radši vlastní provoz · specialista · ověřeno externími daty

Signály: specialista radši vlastní provoz hodně úloh najednourychlé odpovědi v produktu

Kdy ho zvolit →

Když shortlist nestačí

Tady už je širší katalog. Filtry ho zúží podle situace, detail nechává tvrdá čísla a zdroje mimo první čtení.

Claude Fable 5

Anthropic

Moje čtení

Nový horní Claude pro nejtěžší agentickou práci.

✓ Vzít na: kód a refaktory · agenty, co mají něco udělat · odpovědi z firemních dat

✗ Nevzít na: levný masový provoz · když odpověď musí přijít hned

Fable je nový vrchol na těžké agenty a coding, ale ne každodenní dělník. Použij ho tam, kde chyba bolí víc než dlouhá a drahá odpověď.

klidně dražší, když chyba bolí · nejtěžší práce · ověřeno externími daty

Signály: nejtěžší práce klidně dražší, když chyba bolí kód a refaktoryagenty, co mají něco udělat

Kdy ho zvolit →

Claude Opus 4.8

Anthropic

Moje čtení

Na těžký refaktor a rozhodnutí s následky.

✓ Vzít na: kód a refaktory · agenty, co mají něco udělat · odpovědi z firemních dat

✗ Nevzít na: levný masový provoz · když odpověď musí přijít hned

Opus je skalpel na refaktor, agenta a dlouhé rozhodování. Jestli jen meleš objem, pálíš peníze pro efekt.

střední rozpočet · nejtěžší práce · ověřeno externími daty

Signály: nejtěžší práce střední rozpočet kód a refaktoryagenty, co mají něco udělat

Kdy ho zvolit →

GPT-5.5

OpenAI

Moje čtení

Když chyba stojí víc než tokeny.

✓ Vzít na: kód a refaktory · agenty, co mají něco udělat · tahání faktů z dokumentů

✗ Nevzít na: model pod vlastní střechou · když odpověď musí přijít hned

Vezmi ho na práci, kde nechceš vysvětlovat průšvih slovem kompromis. Na levný provoz je to moc drahý mozek.

střední rozpočet · nejtěžší práce · ověřeno externími daty

Signály: nejtěžší práce střední rozpočet kód a refaktoryagenty, co mají něco udělat

Kdy ho zvolit →

Gemini 3.1 Pro Preview

Google

Moje čtení

Když potřebuješ dlouhý vstup a Google svět.

✓ Vzít na: odpovědi z firemních dat · obraz, PDF a multimédia · víc jazyků

✗ Nevzít na: když odpověď musí přijít hned · model pod vlastní střechou

Sáhni po něm, když řešíš velký kontext, multimodalitu nebo Google stack. Na rychlé levné odpovědi existují méně okázalé volby.

střední rozpočet · nejtěžší práce · ověřeno externími daty

Signály: nejtěžší práce střední rozpočet odpovědi z firemních datobraz, PDF a multimédia

Kdy ho zvolit →

Qwen3.7 Max

Alibaba

Moje čtení

Silná alternativa mimo americké defaulty.

✓ Vzít na: víc jazyků · kód a refaktory · hodně úloh najednou

✗ Nevzít na: model pod vlastní střechou · složití agenti

Qwen dává smysl, když chceš silný model mimo americké defaulty. Pro nejcitlivější agentické řízení bych ho ještě porovnala s Opusem nebo GPT.

střední rozpočet · nejtěžší práce · ověřeno externími daty

Signály: nejtěžší práce střední rozpočet víc jazykůkód a refaktory

Kdy ho zvolit →

Gemini 3.5 Flash

Google

Moje čtení

Na hodně práce, kde vyhrává rychlost a cena.

✓ Vzít na: hodně úloh najednou · odpovědi z firemních dat · rychlé odpovědi v produktu

✗ Nevzít na: velký a rizikový vývoj · když odpověď musí přijít hned

Flash je pracovní kůň na routing, extrakce a dávky. Nechtěj po něm nejhlubší reasoning, za tu cenu by to byla magie, ne plán.

střední rozpočet · specialista · ověřeno externími daty

Signály: specialista střední rozpočet hodně úloh najednouodpovědi z firemních dat

Kdy ho zvolit →

Kimi K2.6

Moonshot

Moje čtení

Hodně textu za rozumnější účet.

✓ Vzít na: hodně úloh najednou · kód a refaktory · odpovědi z firemních dat

✗ Nevzít na: audit a firemní pravidla · práce s externími nástroji

Kimi ber na hodně textu a rozumný účet. U governance a tool-use ho nejdřív zavři do testovací arény.

levně ve velkém · specialista · ověřeno externími daty

Signály: specialista levně ve velkém hodně úloh najednoukód a refaktory

Kdy ho zvolit →

Claude Sonnet 4.6

Anthropic

Moje čtení

Každodenní Claude, když Opus už pálí rozpočet.

✓ Vzít na: kód a refaktory · agenty, co mají něco udělat · odpovědi z firemních dat

✗ Nevzít na: model pod vlastní střechou · levný masový provoz

Sonnet je každodenní Claude pro coding a agenty, když Opus už ekonomicky syčí. Na obří objem nebo self-hosted svobodu to není.

střední rozpočet · specialista · ověřeno externími daty

Signály: specialista střední rozpočet kód a refaktoryagenty, co mají něco udělat

Kdy ho zvolit →

GLM-5.1

Z.AI/Zhipu

Moje čtení

Karta pro diverzifikaci a vlastní provoz.

✓ Vzít na: model pod vlastní střechou · citlivější firemní provoz · hodně úloh najednou

✗ Nevzít na: složití agenti · nejtěžší vývoj

GLM je karta pro diverzifikaci, self-hosted úvahy a multilingual provoz. Na top coding a prémiové agenty bych ho nedávala bez vlastního benchmarku.

radši vlastní provoz · specialista · ověřeno externími daty

Signály: specialista radši vlastní provoz model pod vlastní střechoucitlivější firemní provoz

Kdy ho zvolit →

DeepSeek V4 Flash

DeepSeek

Moje čtení

Levný tahoun na objem a rutinní automatizace.

✓ Vzít na: hodně úloh najednou · rychlé odpovědi v produktu · model pod vlastní střechou

✗ Nevzít na: nejhlubší rozhodování · nejtěžší vývoj

Flash varianta patří na levný objem, routing a automatizace. Jakmile jde o těžký reasoning nebo špičkový coding, vyber silnější zvíře.

radši vlastní provoz · specialista · ověřeno externími daty

Signály: specialista radši vlastní provoz hodně úloh najednourychlé odpovědi v produktu

Kdy ho zvolit →

DeepSeek V4 Pro

DeepSeek

Moje čtení

Kontrola a cena pro týmy s vlastním apetitem.

✓ Vzít na: hodně úloh najednou · kód a refaktory · model pod vlastní střechou

✗ Nevzít na: audit a firemní pravidla · složití agenti

DeepSeek Pro je value kandidát pro týmy, které hlídají účet i kontrolu. Pokud jde o enterprise governance, ověř si víc než jen cenu.

radši vlastní provoz · specialista · ověřeno externími daty

Signály: specialista radši vlastní provoz hodně úloh najednoukód a refaktory

Kdy ho zvolit →

Command A+

Cohere

Moje čtení

Cohere pro firemní znalosti a dokumenty.

✓ Vzít na: odpovědi z firemních dat · tahání faktů z dokumentů · citlivější firemní provoz

✗ Nevzít na: nejtěžší vývoj · nejhlubší rozhodování

Command A+ má smysl v enterprise RAGu, retrievalu a dokumentech. Nepleť si ho s modelem, který má vyhrát coding závod.

levně ve velkém · specialista · ověřeno externími daty

Signály: specialista levně ve velkém odpovědi z firemních dattahání faktů z dokumentů

Kdy ho zvolit →

Grok 4.3

xAI

Moje čtení

Challenger pro týmy, kterým sedí xAI svět.

✓ Vzít na: kód a refaktory · rychlé odpovědi v produktu · tahání faktů z dokumentů

✗ Nevzít na: model pod vlastní střechou · citlivější firemní provoz

Grok je zajímavý challenger, hlavně když ti sedí xAI ekosystém. Pro compliance a vlastní hosting bych měla prst nad brzdou.

střední rozpočet · specialista · ověřeno externími daty

Signály: specialista střední rozpočet kód a refaktoryrychlé odpovědi v produktu

Kdy ho zvolit →

Llama 4 Maverick

Mistral Medium 3.5

Mistral AI

Moje čtení

Evropský kompromis pro firemní provoz.

✓ Vzít na: citlivější firemní provoz · odpovědi z firemních dat · tahání faktů z dokumentů

✗ Nevzít na: nejhlubší rozhodování · nejtěžší vývoj

Mistral Medium je rozumný evropský kompromis pro RAG, extrakce a citlivější provoz. Na absolutní frontier práci to není poslední dveře v pekle.

střední rozpočet · specialista · ověřeno externími daty

Signály: specialista střední rozpočet citlivější firemní provozodpovědi z firemních dat

Kdy ho zvolit →

Mistral Large 3

Mistral AI

Moje čtení

Evropská alternativa pro obecné nasazení.

✓ Vzít na: citlivější firemní provoz · tahání faktů z dokumentů · hodně úloh najednou

✗ Nevzít na: nejhlubší rozhodování · agenty, co mají něco udělat

Mistral Large je evropská alternativa, když nechceš všechno stavět na hyperscaleru. Pro agenty a hluboký reasoning bych chtěla druhé měření.

levně ve velkém · specialista · ověřeno externími daty

Signály: specialista levně ve velkém citlivější firemní provoztahání faktů z dokumentů

Kdy ho zvolit →

Odkud beru jistotu

Kurátorský snapshot pro rozhodování, ne živý leaderboard. Primární zdroj je Artificial Analysis, doplněný o LMArena, LLM Stats, Aider, SWE-Bench, DeepSWE a HF Open LLM Leaderboard podle dostupnosti při běhu. Revize běží zhruba každé dva týdny. Když karta nemá ověřená data, radši mlčí, než aby si vymýšlela čísla.