Compare | Lilith AI

Top picks

Trzy szybkie wybory bez przewijania: jeden do najtrudniejszej pracy, jeden do taniego wolumenu i jeden dla zespołów, które nie chcą wisieć tylko na cudzym API.

Claude Fable 5

wybór

Anthropic

Moja ocena

coding pick oparty o aktualne AA.

✓ Brać do: pisanie kodu · agenci AI · wiedza firmowa

✗ Nie brać do: masowy wolumen · twarda latencja

Claude Fable 5 ma w źródłach IQ 64.9 i input $10/M. Rozważ go do: pisanie kodu, agenci AI; przy mass-volume, real-time-latency zrób drugi benchmark przed wdrożeniem.

drożej, gdy błąd boli · czołówka rynku · zweryfikowano danymi zewnętrznymi

Sygnały: czołówka rynku drożej, gdy błąd boli pisanie koduagenci AI

Kiedy wybrać →

GPT-5.5

wybór

OpenAI

Moja ocena

coding pick oparty o aktualne AA.

✓ Brać do: pisanie kodu · agenci AI · ekstrakcja z dokumentów

✗ Nie brać do: własny hosting · twarda latencja

GPT-5.5 ma w źródłach IQ 60.2 i input $5/M i DeepSWE pass@1 70.0 %. Rozważ go do: pisanie kodu, agenci AI; przy własny hosting, real-time-latency zrób drugi benchmark przed wdrożeniem.

średni budżet · czołówka rynku · zweryfikowano danymi zewnętrznymi

Sygnały: czołówka rynku średni budżet pisanie koduagenci AI

Kiedy wybrać →

DeepSeek V4 Flash

wybór

DeepSeek

Moja ocena

batch pick oparty o aktualne AA.

✓ Brać do: duże paczki · szybkie odpowiedzi · własny hosting

✗ Nie brać do: najtrudniejszy reasoning · top coding

DeepSeek V4 Flash ma w źródłach IQ 46.5 i input $0.14/M. Rozważ go do: duże paczki, szybkie odpowiedzi; przy deep-frontier-reasoning, top-coding zrób drugi benchmark przed wdrożeniem.

open / własny serwer · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista open / własny serwer duże paczkiszybkie odpowiedzi

Kiedy wybrać →

Gdy shortlist nie wystarczy

To już szerszy katalog. Filtry zawężą go według sytuacji, a detail trzyma twarde liczby poza pierwszym czytaniem.

Claude Fable 5

Anthropic

Moja ocena

coding pick oparty o aktualne AA.

✓ Brać do: pisanie kodu · agenci AI · wiedza firmowa

✗ Nie brać do: masowy wolumen · twarda latencja

Claude Fable 5 ma w źródłach IQ 64.9 i input $10/M. Rozważ go do: pisanie kodu, agenci AI; przy mass-volume, real-time-latency zrób drugi benchmark przed wdrożeniem.

drożej, gdy błąd boli · czołówka rynku · zweryfikowano danymi zewnętrznymi

Sygnały: czołówka rynku drożej, gdy błąd boli pisanie koduagenci AI

Kiedy wybrać →

Claude Opus 4.8

Anthropic

Moja ocena

coding pick oparty o aktualne AA.

✓ Brać do: pisanie kodu · agenci AI · wiedza firmowa

✗ Nie brać do: masowy wolumen · twarda latencja

Claude Opus 4.8 ma w źródłach IQ 61.4 i input $5/M i DeepSWE pass@1 58.2 %. Rozważ go do: pisanie kodu, agenci AI; przy mass-volume, real-time-latency zrób drugi benchmark przed wdrożeniem.

średni budżet · czołówka rynku · zweryfikowano danymi zewnętrznymi

Sygnały: czołówka rynku średni budżet pisanie koduagenci AI

Kiedy wybrać →

GPT-5.5

OpenAI

Moja ocena

coding pick oparty o aktualne AA.

✓ Brać do: pisanie kodu · agenci AI · ekstrakcja z dokumentów

✗ Nie brać do: własny hosting · twarda latencja

GPT-5.5 ma w źródłach IQ 60.2 i input $5/M i DeepSWE pass@1 70.0 %. Rozważ go do: pisanie kodu, agenci AI; przy własny hosting, real-time-latency zrób drugi benchmark przed wdrożeniem.

średni budżet · czołówka rynku · zweryfikowano danymi zewnętrznymi

Sygnały: czołówka rynku średni budżet pisanie koduagenci AI

Kiedy wybrać →

Gemini 3.1 Pro Preview

Google

Moja ocena

rag pick oparty o aktualne AA.

✓ Brać do: wiedza firmowa · obraz i multimodalność · treści wielojęzyczne

✗ Nie brać do: twarda latencja · własny hosting

Gemini 3.1 Pro Preview ma w źródłach IQ 57.2 i input $2/M i DeepSWE pass@1 9.7 %. Rozważ go do: wiedza firmowa, obraz i multimodalność; przy real-time-latency, własny hosting zrób drugi benchmark przed wdrożeniem.

średni budżet · czołówka rynku · zweryfikowano danymi zewnętrznymi

Sygnały: czołówka rynku średni budżet wiedza firmowaobraz i multimodalność

Kiedy wybrać →

Qwen3.7 Max

Alibaba

Moja ocena

multilingual pick oparty o aktualne AA.

✓ Brać do: treści wielojęzyczne · pisanie kodu · duże paczki

✗ Nie brać do: własny hosting · wymagający agenci

Qwen3.7 Max ma w źródłach IQ 56.6 i input $2.5/M i DeepSWE pass@1 17.7 %. Rozważ go do: treści wielojęzyczne, pisanie kodu; przy własny hosting, premium-agents zrób drugi benchmark przed wdrożeniem.

średni budżet · czołówka rynku · zweryfikowano danymi zewnętrznymi

Sygnały: czołówka rynku średni budżet treści wielojęzycznepisanie kodu

Kiedy wybrać →

Gemini 3.5 Flash

Google

Moja ocena

batch pick oparty o aktualne AA.

✓ Brać do: duże paczki · wiedza firmowa · szybkie odpowiedzi

✗ Nie brać do: trudne programowanie · twarda latencja

Gemini 3.5 Flash ma w źródłach IQ 55.3 i input $1.5/M i DeepSWE pass@1 28.3 %. Rozważ go do: duże paczki, wiedza firmowa; przy deep-coding, real-time-latency zrób drugi benchmark przed wdrożeniem.

średni budżet · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista średni budżet duże paczkiwiedza firmowa

Kiedy wybrać →

Kimi K2.6

Moonshot

Moja ocena

batch pick oparty o aktualne AA.

✓ Brać do: duże paczki · pisanie kodu · wiedza firmowa

✗ Nie brać do: reguły firmowe i audyt · pewne użycie narzędzi

Kimi K2.6 ma w źródłach IQ 53.9 i input $0.95/M i DeepSWE pass@1 23.9 %. Rozważ go do: duże paczki, pisanie kodu; przy enterprise-governance, tool-use zrób drugi benchmark przed wdrożeniem.

tanio w skali · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista tanio w skali duże paczkipisanie kodu

Kiedy wybrać →

Claude Sonnet 4.6

Anthropic

Moja ocena

coding pick oparty o aktualne AA.

✓ Brać do: pisanie kodu · agenci AI · wiedza firmowa

✗ Nie brać do: własny hosting · masowy wolumen

Claude Sonnet 4.6 ma w źródłach IQ 51.7 i input $3/M i DeepSWE pass@1 31.8 %. Rozważ go do: pisanie kodu, agenci AI; przy własny hosting, mass-volume zrób drugi benchmark przed wdrożeniem.

średni budżet · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista średni budżet pisanie koduagenci AI

Kiedy wybrać →

GLM-5.1

Z.AI/Zhipu

Moja ocena

self-hosted pick oparty o aktualne AA.

✓ Brać do: własny hosting · wrażliwe wdrożenia · duże paczki

✗ Nie brać do: wymagający agenci · top coding

GLM-5.1 ma w źródłach IQ 51.4 i input $1.4/M i DeepSWE pass@1 17.5 %. Rozważ go do: własny hosting, wrażliwe wdrożenia; przy premium-agents, top-coding zrób drugi benchmark przed wdrożeniem.

open / własny serwer · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista open / własny serwer własny hostingwrażliwe wdrożenia

Kiedy wybrać →

DeepSeek V4 Flash

DeepSeek

Moja ocena

batch pick oparty o aktualne AA.

✓ Brać do: duże paczki · szybkie odpowiedzi · własny hosting

✗ Nie brać do: najtrudniejszy reasoning · top coding

DeepSeek V4 Flash ma w źródłach IQ 46.5 i input $0.14/M. Rozważ go do: duże paczki, szybkie odpowiedzi; przy deep-frontier-reasoning, top-coding zrób drugi benchmark przed wdrożeniem.

open / własny serwer · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista open / własny serwer duże paczkiszybkie odpowiedzi

Kiedy wybrać →

DeepSeek V4 Pro

DeepSeek

Moja ocena

batch pick oparty o aktualne AA.

✓ Brać do: duże paczki · pisanie kodu · własny hosting

✗ Nie brać do: reguły firmowe i audyt · wymagający agenci

DeepSeek V4 Pro ma w źródłach IQ 51.5 i input $0.435/M i DeepSWE pass@1 7.5 %. Rozważ go do: duże paczki, pisanie kodu; przy enterprise-governance, premium-agents zrób drugi benchmark przed wdrożeniem.

open / własny serwer · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista open / własny serwer duże paczkipisanie kodu

Kiedy wybrać →

Command A+

Cohere

Moja ocena

rag pick oparty o aktualne AA.

✓ Brać do: wiedza firmowa · ekstrakcja z dokumentów · wrażliwe wdrożenia

✗ Nie brać do: top coding · najtrudniejszy reasoning

Command A Plus ma w źródłach IQ 37.2 i input $0/M. Rozważ go do: wiedza firmowa, ekstrakcja z dokumentów; przy top-coding, deep-frontier-reasoning zrób drugi benchmark przed wdrożeniem.

tanio w skali · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista tanio w skali wiedza firmowaekstrakcja z dokumentów

Kiedy wybrać →

Grok 4.3

xAI

Moja ocena

coding pick oparty o aktualne AA.

✓ Brać do: pisanie kodu · szybkie odpowiedzi · ekstrakcja z dokumentów

✗ Nie brać do: własny hosting · wrażliwe wdrożenia

Grok 4.3 ma w źródłach IQ 53.2 i input $1.25/M. Rozważ go do: pisanie kodu, szybkie odpowiedzi; przy własny hosting, wrażliwe wdrożenia zrób drugi benchmark przed wdrożeniem.

średni budżet · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista średni budżet pisanie koduszybkie odpowiedzi

Kiedy wybrać →

Llama 4 Maverick

Mistral Medium 3.5

Mistral AI

Moja ocena

compliance pick oparty o aktualne AA.

✓ Brać do: wrażliwe wdrożenia · wiedza firmowa · ekstrakcja z dokumentów

✗ Nie brać do: najtrudniejszy reasoning · top coding

Mistral Medium 3.5 ma w źródłach IQ 39.2 i input $1.5/M. Rozważ go do: wrażliwe wdrożenia, wiedza firmowa; przy deep-frontier-reasoning, top-coding zrób drugi benchmark przed wdrożeniem.

średni budżet · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista średni budżet wrażliwe wdrożeniawiedza firmowa

Kiedy wybrać →

Mistral Large 3

Mistral AI

Moja ocena

compliance pick oparty o aktualne AA.

✓ Brać do: wrażliwe wdrożenia · ekstrakcja z dokumentów · duże paczki

✗ Nie brać do: najtrudniejszy reasoning · agenci AI

Mistral Large 3 ma w źródłach IQ 22.8 i input $0.5/M. Rozważ go do: wrażliwe wdrożenia, ekstrakcja z dokumentów; przy deep-frontier-reasoning, agenci AI zrób drugi benchmark przed wdrożeniem.

tanio w skali · specjalista · zweryfikowano danymi zewnętrznymi

Sygnały: specjalista tanio w skali wrażliwe wdrożeniaekstrakcja z dokumentów

Kiedy wybrać →

Metodyka i źródła

Kuratorski snapshot do decyzji, nie żywy leaderboard. Główne dane pochodzą z Artificial Analysis, a LMArena, LLM Stats, Aider, SWE-Bench, DeepSWE i HF Open LLM Leaderboard są używane, gdy są dostępne w czasie generowania. Przegląd wraca mniej więcej co dwa tygodnie, a karta bez danych pokazuje ładowanie zamiast zmyślonych liczb.