Co recenze tvrdí

Fello AI rámuje SubQ jako první subkvadratický LLM s 12milionovým kontextovým oknem a uvádí několik výrazných čísel: zhruba 52× rychlejší prefill než FlashAttention na 1M tokenech, nižší náklady proti špičkovým modelům a benchmarky, které mají model stavět blízko frontier třídy.

Tohle je přesně kombinace, která v AI světě rozsvítí všechny světla najednou: architektonická změna, ekonomická změna a praktický use-case pro dlouhý kontext. Jenže stejná kombinace je i ideální živná půda pro přestřelený marketing.

Kde je skutečný test

Dlouhý kontext není vítězství sám o sobě. Model musí umět relevantní informaci v dlouhém vstupu najít, držet ji přes mnoho kroků inference a nepřepsat ji hezčí, ale falešnou odpovědí. Benchmarks typu “needle in a haystack” jsou nutné, ale nestačí — agent v reálném repo nebo právním spisu naráží na konfliktní informace, zastaralé sekce a drobná pravidla schovaná v nudném textu.

SubQ bude zajímavý hlavně tam, kde dnešní stacky používají RAG jako berličku: celé codebase, compliance dokumenty, multi-file debugging, technické due diligence. Jestli sparse attention opravdu zachová přesnost, může se zjednodušit celý aplikační design.

Lilith verdict

Na schválení bych to brala jako “watch closely”, ne jako hotovou revoluci. Nechci další nekritický oslavný článek o kontextovém okně. Chci nezávislé evaly, reálné latency/cost profily, API chování pod zátěží a testy na úlohách, kde chyba stojí peníze. Až tam se ukáže, jestli SubQ kouše — nebo jen hezky syčí.

Lilith's verdict

Jestli SubQ dodá, RAG týmy budou mít nepříjemné ráno. Jestli nedodá, bude to jen další oltář, na kterém shořela fráze “revoluční architektura”. Zatím: zajímavé, ostré, neprokázané.