SubQ review: świetne liczby, ale na razie test wiary w benchmarki | Radar

Fello AI opisuje SubQ jako pierwszy subkwadratowy LLM z oknem kontekstu 12 milionów tokenów i przedstawia kilka uderzających liczb: mniej więcej 52x szybszy prefill niż FlashAttention na 1 mln tokenów, niższy koszt w porównaniu z modelami frontierowymi i benchmarki sytuujące model blisko klasy frontier.

Fello AI: SubQ deklaruje 52x szybszy prefill i okno kontekstu, którego nikt inny nie ma

To dokładnie kombinacja, która w świecie AI zaświeca wszystkie wskaźniki naraz: zmiana architektoniczna, zmiana ekonomiczna i praktyczny przypadek użycia dla długiego kontekstu. Ta sama kombinacja jest też idealnym polem dla przesadzonego marketingu.

Recenzja przedstawia SubQ jako oparty na architekturze subkwadratowej z sparse attention, zaprojektowany tak by wyjść poza kwadratowy wzrost kosztu, który sprawia, że bardzo długi kontekst jest prohibitywnie drogi w standardowych transformerach. Twierdzenie o 52x szybszym prefill jest porównywane z FlashAttention na wejściu jednego miliona tokenów. Pozycjonowanie benchmarków i porównania kosztów z modelami frontierowymi pochodzą z testów i narracji samego Fello AI.

Większy kontekst zmienia projekt aplikacji tylko tam, gdzie rozumowanie utrzymuje dokładność w całym oknie

Praktyczne pytanie dotyczy tego, kto naprawdę tego użyje, gdzie usuwa pracę i gdzie tylko dodaje kolejną warstwę procesu. Przypadki użycia, gdzie długi kontekst miałby największe znaczenie, to te, gdzie dzisiejsze stosy używają RAG jako kuli: pełne bazy kodu, dokumenty compliance, debugowanie wielu plików, techniczne due diligence. Jeśli sparse attention rzeczywiście zachowuje dokładność, projekt aplikacji może się uprościć: mniej dzielenia tekstu, mniej kruchego retrieval, więcej materiału bezpośrednio przed modelem.

Ale długi kontekst sam w sobie nie jest wygraną. Model musi znaleźć istotną informację w długim wejściu, utrzymać ją przez wiele kroków inferencji i nie nadpisać jej bardziej płynną, ale błędną odpowiedzią. Benchmarki typu needle in a haystack są konieczne, ale niewystarczające. Agent pracujący w prawdziwej bazie kodu lub dokumencie prawnym napotyka sprzeczne informacje, przestarzałe sekcje i małe reguły ukryte w nudnym tekście.

Liczby tej skali wymagają niezależnej replikacji, zanim zmienią decyzje architektoniczne

52x przyspieszenie na prefill to bardzo duża liczba. Twierdzenia tej skali wymagają niezależnej replikacji zanim zmienią decyzje architektoniczne. Fello AI to jeden recenzent. Źródło ma promocyjną narrację. Dla zespołów produkcyjnych liczy się to, czy szybkość utrzymuje się w rzeczywistych warunkach obciążenia, jaki jest rzeczywisty koszt na token i jak zachowuje się dokładność w środku milionowego wejścia, gdzie modele oparte na attention zazwyczaj się degradują.

Pozycjonowanie blisko klasy frontier jest interesujące, ale to właśnie ta część wymaga największej kontroli. Modele frontierowe są oceniane na powszechnie uzgodnionych publicznych benchmarkach. Firma z nową architekturą raportująca własne benchmarki to nie to samo.

Adopcja w prawdziwych zespołach będzie ważniejsza niż benchmark

Warto obserwować dostęp deweloperów do SubQ, rzeczywiste ceny API i adopcję w zespołach wykonujących konkretne workloady, gdzie długi kontekst ma największe znaczenie: prawo, compliance, praca z dużymi bazami kodu. Jeśli Subquadratic poprawi ekonomikę infrastruktury bez poświęcenia dokładności, stos RAG dla wielu produktów uprości się. To byłaby istotna zmiana.

Trzeźwy scenariusz jest taki, że architektura jest prawdziwa, ekonomika się poprawia, a problemy z dokładnością przy długim kontekście pozostają tak trudne jak dotychczas, tylko tańsze w błędach. Dowiemy się, który scenariusz się rozgrywa, gdy pierwsze zespoły uruchomią SubQ na swoich rzeczywistych produkcyjnych workloadach i zdadzą relację.

Werdykt Lilith

Jeśli SubQ spełni obietnice, zespoły RAG będą miały nieprzyjemny poranek. Jeśli nie, będzie to kolejny ołtarz, na którym spłonęło hasło 'rewolucyjna architektura'. Na razie: interesujące, wyraziste, nieudowodnione.