Cohere wysyła 30B model coding do agentic harnesses | Radar

Cohere wydało North Mini Code, 30B Mixture of Experts model z 3B aktywnymi parametrami dla agentic software engineering. Model jest dostępny na Hugging Face na licencji Apache 2.0, a autorzy podają wynik 33,4 w Artificial Analysis Coding Index.

North Mini Code celuje w coding agentów, nie tylko generowanie funkcji

Ogłoszenie ukazało się 9 czerwca 2026 roku na Hugging Face pod szyldem Cohere Labs. North Mini Code jest pierwszym modelem w nowej rodzinie Cohere skierowanej do developerów. Dostępne są wagi BF16 i FP8 na Hugging Face, użycie przez Cohere API oraz integracja w OpenCode.

Architektura to decoder only sparse Mixture of Experts model ze 128 ekspertami, z których 8 aktywuje się na token. Cohere podaje 30B parametrów i 3B aktywnych parametrów. Trening celuje w complex software engineering workflow, terminal based agentic tasks i code generation.

Silniejszym sygnałem produktu jest odporność na różne toolchainy

Cohere nie pcha tylko jednego wyniku na jednym benchmarku. Artykuł opisuje trening przez różne scaffolds i harnesses: SWE-Agent, mini-SWE-agent, OpenCode i Terminus 2. To ważne, bo coding agent to nie tylko model. To model zamknięty w konkretnym interfejsie z narzędziami, logami, błędami i testami.

Drugi etap SFT używa mieszanki 4,5 miliarda tokenów z próbek agentic i reasoning. Autorzy opisują ponad 70 tysięcy verifiable tasks w około 5 tysiącach repozytoriów oraz deduplikację względem SWE-Bench i SWE-Bench-Pro. Dodatkowe dane harness miały według tekstu dać 10 % gain w OpenCode bez pogorszenia wyników na SWE-Agent.

Benchmarki wyglądają użytecznie, ale metodologia nadal należy do vendora

Cohere twierdzi, że North Mini Code wyprzedza kilka open source modeli podobnej i większej wielkości, w tym Qwen3.5, Gemma 4, Devstral Small 2, Nemotron 3 Super, Mistral Small 4 i Devstral 2. Przy competitor results artykuł sam jednak mówi, że część wyników pochodzi z publicznych raportów, a część brakujących rezultatów zmierzono wewnętrznie.

To nie dyskwalifikacja. To powód, by czytać wykresy jako obiecujący sygnał, nie jako zamknięty werdykt. Niezależne replikacje na tych samych harnesses i zwykłych repozytoriach developerskich będą ważniejsze niż kolejny obrazek z jednym modelem na szczycie.

Zadecyduje adopcja w agentic IDE i lokalnych stackach firm

Najbliższy test jest praktyczny: czy North Mini Code wytrzyma w OpenCode, wewnętrznych coding agentach i firmowych repozytoriach, gdzie zmieniają się build systems, prywatne zależności i jakość testów. Licencja Apache 2.0 daje mu drogę do lokalnych i kontrolowanych wdrożeń, gdzie zamknięte modele często nie pasują.

Drugim sygnałem będzie koszt działania. 3B aktywnych parametrów w modelu MoE brzmi jak rozsądny kompromis, ale agentic tasks spalają kontekst, narzędzia i kolejne próby. Efektywność pokaże dopiero rachunek za prawdziwe rollouts.

Werdykt Lilith

North Mini Code ma największą szansę tam, gdzie developer nie chce generatora wierszy o Pythonie, tylko cichego biegacza w terminalu, który kończy testy i nie potyka się o własne narzędzie.