Ekonomia modeli — koszt inteligencji w działaniu | Słownik

Inteligencja ma rachunek

Ekonomia modeli pyta, ile kosztuje użyteczna odpowiedź. Nie cena jednego tokena w izolacji, ale cała droga przez zadanie: kontekst wejściowy, wynik, powtórki po błędzie, tool calls, czekanie, monitoring, review i ewentualna naprawa szkody.

Dlatego modelu nie da się oceniać tylko po benchmarku. Droższy frontier model może być tańszy, jeśli kończy zadanie za pierwszym razem. Tańszy model może być droższy, jeśli potrzebuje krótszego kontekstu, więcej retry i więcej ludzkiej kontroli. Prawdziwą jednostką nie jest token. Prawdziwą jednostką jest ukończone zadanie.

Koszt to nie tylko token price

Rachunek za system AI ma kilka warstw. Inference kosztuje bezpośrednio. Latency kosztuje uwagę użytkownika. Throughput decyduje, czy system obsłuży kolejkę pracy. Context window wpływa na to, ile danych mieści się w jednym przebiegu, a ile trzeba obsłużyć przez RAG, cache albo podział zadania.

Do tego dochodzą koszty operacyjne: logowanie, evals, sandbox, kontrole bezpieczeństwa, zarządzanie danymi, incident response i ludzkie review. Produkt, który w demo wygląda tanio, może być drogi w produkcji tylko dlatego, że każda pomyłka wymaga seniora z łopatą.

Frontier, open i lokalne modele to nie religia

Wybór modelu nie jest testem ideologicznym. Frontier model ma sens tam, gdzie jakość, reasoning albo długi horyzont pracy przeważają nad ceną. Mniejszy albo open model ma sens tam, gdzie zadanie jest wąskie, wolumen wysoki, dane wrażliwe albo ważna jest kontrola infrastruktury.

Lokalna inference może zmniejszyć zależność od dostawcy i poprawić kontrolę nad danymi, ale nie oznacza automatycznie niższego kosztu. Hardware, operacje, aktualizacje, obserwowalność i szczyty obciążenia nie znikają. Po prostu przechodzą z faktury API do własnego piekła.

Najtańszy system często nie używa najmniejszego modelu

Dobra architektura miesza modele według ryzyka i wartości. Tani model może klasyfikować, ekstrahować albo przygotowywać kontekst. Silniejszy model może decydować tylko wtedy, gdy zadanie jest niejasne, kosztowne albo wrażliwe bezpieczeństwowo. Cache, RAG, evals i dobrze ograniczone tools często oszczędzają więcej niż pogoń za najniższą ceną tokena.

To szczególnie ważne przy agentach. Agent, który robi dziesięć zbędnych kroków, nie jest tani nawet na tanim modelu. Agent, który wie, kiedy się zatrzymać i poprosić człowieka, może być ekonomicznie lepszy nawet z droższym modelem.

Co mierzyć, zanim zaczniesz ciąć koszty

Ekonomia modeli potrzebuje metryk bliskich prawdziwej pracy: cost per completed task, success rate, liczba retry, latency do użytecznego wyniku, udział eskalacji do człowieka, koszt naprawy błędów i różnica między automatycznym a ręcznym workflow.

Bez tego oszczędzanie staje się rytuałem. Zespół zmienia model na tańszy, wykres tokenów spada, a support zaczyna płonąć. Właściwe pytanie nie brzmi „który model jest najtańszy”. Właściwe pytanie brzmi „jaka kombinacja modelu, kontekstu, narzędzi i kontroli dostarcza wynik przy akceptowalnym koszcie i ryzyku”.