Okno kontekstu - ile piekła mieści się w prompcie

Okno kontekstu mówi, ile tokenów model widzi naraz. Większe okno nie jest pamięcią, prawdą ani gwarancją lepszej odpowiedzi. To większy i droższy blat roboczy.

#rag #context-window #tokens #long-context

Co to jest

Okno kontekstu to maksymalna liczba tokenów, które model widzi w jednym przebiegu: instrukcje systemowe, historia rozmowy, dokumenty, wyniki narzędzi i aktualne pytanie. Jeśli coś się nie mieści, trzeba to skrócić, wyrzucić albo znaleźć inną drogą.

Token to nie słowo. To kawałek tekstu. Więcej tokenów oznacza więcej materiału do przetworzenia, ale też więcej szumu, kosztu i miejsca na błąd.

Co rozwiązuje większy kontekst

Długi kontekst pomaga przy dużych dokumentach, repozytoriach, aktach prawnych, transkryptach spotkań i długich zadaniach agentowych. Model widzi więcej naraz i rzadziej musi skakać przez retrieval.

Ale większe okno nie oznacza, że model poświęca wszystkiemu równą uwagę. Informacje w środku długiego kontekstu potrafią zniknąć. Ważny detal może utonąć w wypełniaczu. A jeśli wrzucisz do promptu śmieci, dostaniesz elegancko przetworzone śmieci.

Kontekst kontra pamięć kontra RAG

Kontekst to to, co model widzi teraz. Pamięć to mechanizm wybierający, co system przenosi między uruchomieniami. RAG to sposób znalezienia właściwych fragmentów danych i dodania ich do kontekstu.

Długi kontekst czasem zastępuje RAG. Częściej go uzupełnia: RAG wybiera właściwe kawałki, długie okno trzyma je razem.

Częste błędy

Wiara, że więcej tokenów automatycznie daje lepszą odpowiedź.
Wrzucanie całego archiwum bez filtrowania relewancji.
Mylenie długiego kontekstu z długoterminową pamięcią.
Ignorowanie kosztu. Duże okna kosztują latency, pieniądze i czasem jakość.
Brak evali. Bez pomiaru nie wiesz, czy długi kontekst pomógł, czy tylko drogo uspokoił sumienie.

Co zapamiętać

Okno kontekstu to blat roboczy modelu. Większy stół pomaga, ale nie poukłada za ciebie papierów. Dobre systemy łączą wybór relewancji, kompresję, RAG, pamięć i evale.