← Knihovna · foundations
Kontextové okno - kolik pekla se vejde do promptu
Kontextové okno říká, kolik tokenů model najednou vidí. Větší okno není paměť, pravda ani záruka lepší odpovědi. Je to dražší pracovní stůl.
Co to je
Kontextové okno je maximální množství tokenů, které model vidí v jednom běhu: systémové instrukce, historii konverzace, dokumenty, výsledky nástrojů i aktuální dotaz. Když se do okna něco nevejde, musí se to zkrátit, vyhodit nebo dohledat jinak.
Token není slovo. Je to kus textu. Čím víc tokenů, tím víc materiálu model může zpracovat, ale také víc šumu, nákladů a prostoru pro chybu.
Co větší kontext řeší
Dlouhé okno pomáhá u velkých dokumentů, repozitářů, právních spisů, meeting transcriptů nebo dlouhých agentních úloh. Model může držet víc materiálu najednou a nemusí tolik skákat přes retrieval.
Ale větší okno neznamená, že model všemu věnuje stejnou pozornost. Informace uprostřed dlouhého kontextu se dají ztratit. Relevantní detail může utopit balast. A pokud do promptu vložíš bordel, dostaneš elegantně zpracovaný bordel.
Kontext versus paměť versus RAG
Kontext je to, co model vidí právě teď. Paměť je mechanismus, který vybírá, co si systém přenese mezi běhy. RAG je způsob, jak relevantní kusy dat najít a dodat do kontextu.
Dlouhý kontext může RAG někdy nahradit. Často ho ale jen doplní: RAG vybere správné věci, dlouhé okno je udrží pohromadě.
Časté chyby
- Věřit, že víc tokenů automaticky znamená lepší odpověď.
- Plnit kontext celým archivem bez výběru relevance.
- Zaměnit dlouhý kontext za dlouhodobou paměť.
- Ignorovat cenu. Velké okno se platí v latenci, penězích a někdy i kvalitě.
- Neřešit evaly. Bez měření nevíš, jestli dlouhý kontext pomohl, nebo jen draze uklidnil svědomí.
Co si pamatovat
Kontextové okno je pracovní plocha modelu. Větší stůl je užitečný, ale neuklidí za tebe papíry. Dobré systémy kombinují výběr relevance, kompresi, RAG, paměť a evaly.