Lilith Lilith.
CS EN PL
Začít

Zlaté pravidlo: Kontext není paměť, je to pracovní stůl. Všechno, co na něj položíš, platíš třikrát — penězi, latencí a pozorností modelu, kterou to odvádí od podstatného. Kurátoruj, nekopíruj.

Kdy tohle potřebuješ

Pokaždé, když řešíš „nevejde se mi to do promptu“, „model zapomněl, co jsem říkal před hodinou“, „proč je to tak drahé“ nebo „mám použít RAG, nebo prostě vložit celý dokument?“. Kontextové okno je rozpočet, se kterým hospodaří každá LLM aplikace — a většina problémů s kvalitou i cenou se dá vystopovat k tomu, jak se s ním zachází.

Jak to funguje

Kontextové okno je maximum tokenů, které model vidí v jednom běhu — a vidí v něm všechno najednou: systémové instrukce, popisy nástrojů, historii konverzace, dokumenty, výsledky nástrojů i aktuální dotaz. Token není slovo, je to kousek textu (česky zhruba 2–3 znaky na token, počítej konzervativně).

Anatomie kontextového okna: systémový prompt s nástroji, rostoucí historie konverzace, dokumenty a RAG kontext jako největší žrout, aktuální dotaz — pozornost je nejsilnější na začátku a na konci, prostředek se ztrácí

Tři vlastnosti, které musíš znát:

  1. Pozornost není rovnoměrná. Modely čtou nejspolehlivěji začátek a konec kontextu; informace uprostřed dlouhého okna se ztrácejí (v literatuře „lost in the middle“). Milion tokenů okna neznamená milion tokenů pozornosti.
  2. Platíš za každý token, opakovaně. V konverzaci se celá historie posílá znovu s každou zprávou. Dlouhý kontext zdražuje každé kolo — proto existuje prompt caching: stabilní začátek promptu se účtuje zlomkem ceny.
  3. Víc balastu = horší odpovědi. Relevantní detail utopený ve výpisu celého archivu je horší než ten samý detail podaný samostatně. Když do okna nasypeš nepořádek, dostaneš elegantně zpracovaný nepořádek.

Postup: jak s oknem hospodařit, krok za krokem

1. Změř, co v okně máš. Spočítej tokeny systémového promptu, popisů nástrojů a typického kontextu (každý provider má counting API nebo tokenizer). Většina lidí zírá, že polovinu rozpočtu žere boilerplate, který nikdo rok nečetl.

2. Zeštíhli stabilní část. Systémový prompt a popisy nástrojů piš hutně; každá věta tam musí platit nájem. A drž je stabilní — neměnný prefix promptu je podmínka funkčního cachování.

3. Vybírej, co vkládáš. Místo celého dokumentu sekce, které jsou k dotazu relevantní; místo celého logu posledních N řádků plus chyba. Když korpus přeroste rozumnou mez, tohle je chvíle pro RAG — výběr relevance je celá jeho pointa.

4. Klíčové informace dávej na začátek nebo na konec. Instrukce nahoru, aktuální otázku dolů, balast nejlíp nikam. Prostředek dlouhého kontextu je místo, kde informace chodí umírat.

5. Spravuj historii konverzace. Dlouhý chat průběžně sumarizuj a starší kola zahazuj. A když se konverzace zamotá do slepých uliček, neopravuj ji donekonečna — začni novou s čistým, zpřesněným zadáním. Zaneřáděný kontext kvalitu odpovědí prokazatelně táhne dolů.

6. Ověř si to evalem. Měř kvalitu odpovědí proti délce a složení kontextu na vlastní úloze. Syntetické testy typu jehla v kupce sena vypadají na grafech skvěle, ale o tvé aplikaci řeknou málo.

Kontext vs. paměť vs. RAG

Kontext je to, co model vidí právě teď. Paměť je mechanismus, který vybírá, co se přenese mezi běhy (sumarizace, poznámky, strukturovaný store). RAG je způsob, jak relevantní kusy dat najít a do kontextu dodat. Dlouhé okno může RAG někdy nahradit — u malých korpusů klidně. Častěji ho doplňuje: RAG vybere správné věci, okno je udrží pohromadě.

Časté chyby a jak je opravit

  • „Vejde se to, tak to tam dám celé“ → vejde ≠ patří; vybírej relevantní části, zbytek si model dohledá nástrojem.
  • Klíčová instrukce uprostřed 100k tokenů → začátek nebo konec; prostředek se ztrácí.
  • Měnit systémový prompt za běhu → rozbíjíš cache a platíš plnou cenu za každé kolo; dynamické věci patří na konec promptu.
  • Záměna okna za dlouhodobou paměť → okno po skončení běhu zmizí; co má přežít, musí někdo explicitně uložit.
  • Nekonečná konverzace → sumarizuj, nebo začni novou; historie plná omylů je kontaminovaný kontext.
  • Spoléhání na marketingová čísla → „1M tokenů“ je kapacita, ne garance kvality; ověř na vlastních datech.

Kdy dlouhý kontext stačí (a RAG je zbytečný)

Malý a stabilní korpus (dokumentace do desítek stran), jednorázové analýzy velkého dokumentu, situace, kdy potřebuješ syntézu napříč celkem, ne vyhledání detailu. S prompt cachingem může být „vlož všechno jednou a ptej se opakovaně“ levnější i kvalitnější než křehká RAG pipeline. Hranici najdeš jen měřením.

Knihy a zdroje

Co si pamatovat

Kontextové okno je pracovní plocha modelu: větší stůl je užitečný, ale neuklidí za tebe. Měř, co v okně máš; stabilní věci drž stabilní kvůli cache; důležité dávej na kraje; historii sumarizuj; a vkládej výběr, ne archiv. Dobré systémy kombinují kurátorství kontextu, RAG, paměť a evaly — ne hrubou sílu milionu tokenů.

Souvisí z Radaru