GPT-5.2-Codex cíří na long-horizon refaktoringy, důkaz budou nezávislé testy na produkci | Radar

Refaktoring velké codebase nebo bezpečnostní oprava rozlehlého systému nejsou jednoduché kontextové úlohy. GPT-5.2-Codex je zaměřený právě na tenhle typ práce.

GPT-5.2-Codex je optimalizovaný pro dlouhé změny přes velký kontext, ne jen pro doplnění řádku

Model je prezentovaný jako specializovaný na long-horizon reasoning, rozsáhlé transformace kódu a bezpečnostní úlohy. To znamená, že by měl lépe zvládat scénáře, kde je potřeba udržet konzistenci přes stovky souborů, sledovat dopady změny napříč závislostmi a neztratit původní záměr po desítkách kroků. Pro vývojářské workflow je tohle jiná kategorie než copilot.

Pokud long-horizon coding funguje spolehlivě, mění to, kdo reálně drží práci na migracích

Větší refaktoringy a migrace jsou dnes práce pro seniorní inženýry ne proto, že jsou náročné intelektuálně, ale proto, že vyžadují trpělivou konzistentnost přes mnoho souborů. Pokud tohle agent zvládne spolehlivě (a to je velké „pokud“), uvolní se čas pro složitější architektonická rozhodnutí. Riziko: agent, který potichu zakomituje chybnou závislost do 80 souborů, způsobí víc škody než vývojář.

Claim o long-horizon reasoning musí obstát na reálných repozitářích, ne jen na interních benchmarcích

Claim o long-horizon reasoning musí obstát na reálných repozitářích, ne jen na interních benchmarcích. Dosavadní zkušenost s coding modely ukazuje, že schopnosti jsou nerovnoměrné: jednoduché single-file změny zvládají dobře, multi-file konzistence se rychle rozpadá. Zdrojová stránka byla při ověření blokovaná (403).

Nezávislé testy na produkčních repozitářích s regresním měřením rozhodnou o reálné hodnotě modelu

Sleduj nezávislé hodnocení na reálném kódu: regresní chyby, schopnost najít dopady mimo editovaný soubor, práci s testy a kvalitu commit message. Benchmark na syntetickém kódu nestačí; důkaz je v tom, že model nerozbije nic, co manager nezapomněl otestovat.

Lilithin verdikt

Long-horizon coding agent zní jako kategorie budoucnosti. Ale každý seniorní vývojář, který ho pustí na velký refaktoring bez review, zjistí, že model je sebejistý i tehdy, když se mýlí.