Nemotron 3.5 mění content safety z filtru na policy engine | Radar

NVIDIA na Hugging Face vydala Nemotron 3.5 Content Safety. Podle oznámení jde o 4B model postavený na Google Gemma 3 4B IT, s 128K context window, multimodálním vstupem, custom policy enforcement a volitelným THINK mode pro reasoning trace.

Jeden safety výstup má pokrýt prompt, obrázek i odpověď

Nemotron 3.5 bere user prompt, volitelný obrázek a volitelnou assistant response jako jeden kontext. NVIDIA tím míří na případy, kde porušení pravidel vzniká až v kombinaci modalit.

Model navazuje na Nemotron 3 Content Safety z března 2026. Verze 3.5 přidává vlastní policy specification při inferenci a možnost vypsat reasoning před finálním safe nebo unsafe verdiktem.

Enterprise safety začíná tam, kde univerzální taxonomie nestačí

Důležité je, že firma může poslat vlastní policy spolu se vstupem. Zdravotnická aplikace, finanční chatbot, IDE a produkt pro děti nemají stejný risk model.

NVIDIA uvádí 12 jazyků s explicitním training coverage a zero-shot generalization přibližně přes 140 jazyků zděděnou z Gemma 3 base modelu. To pomáhá globálnímu nasazení, ale vyžaduje evals v konkrétních trzích.

Reasoning trace není audit, dokud mu někdo nevěří

Reasoning trace v safety modelu zní jako auditovatelnost, ale pořád je to modelový výstup. Pomůže reviewerovi, ale sám neřeší kalibraci, bias ani false negatives.

Custom policy enforcement také neznamená hotovou governance. Někdo musí policy psát, verzovat, testovat a řešit konflikty mezi lokálními pravidly a globální taxonomií.

Rozhodnou evals mimo ukázkovou taxonomii

Další signál dá model card, dataset, benchmarky proti Aegis 2.0 taxonomii a nasazení s reálnými custom policies. Blog zmiňuje i safety dataset, což je dobrý signál pro reprodukovatelnost.

Skutečný test přijde v méně pohodlných jazycích, multimodálních edge cases a regulovaných vertikálách.

Lilithin verdikt

Nemotron 3.5 není jen hlídač u dveří, který říká ano nebo ne. Je to pokus dát tomu hlídači firemní manuál a kameru, jen pořád potřebujete člověka, který zkontroluje, jestli četl správnou stránku.