2026-07-02 · ← Radar
Nemotron 3.5 zmienia content safety z filtra w policy engine
NVIDIA wydała na Hugging Face Nemotron 3.5 Content Safety. Ogłoszenie opisuje 4B model oparty na Google Gemma 3 4B IT, z 128K context window, wejściem multimodalnym, custom policy enforcement i opcjonalnym THINK mode dla reasoning traces.
Jeden safety wynik obejmuje prompt, obraz i odpowiedź
Nemotron 3.5 przyjmuje user prompt, opcjonalny obraz i opcjonalną assistant response jako jeden kontekst. NVIDIA celuje w przypadki, w których naruszenie wynika z połączenia modalności.
Model rozwija Nemotron 3 Content Safety z marca 2026. Wersja 3.5 dodaje policy specification w czasie inferencji i może wypisać reasoning przed końcowym verdict safe albo unsafe.
Enterprise safety zaczyna się tam, gdzie taksonomia przestaje działać
Najważniejsze jest to, że firma może wysłać własną policy razem z wejściem. Aplikacja medyczna, chatbot finansowy, IDE i produkt dla dzieci nie mają jednego risk model.
NVIDIA podaje 12 języków z explicit training coverage oraz zero-shot generalization dla około 140 języków odziedziczoną po Gemma 3 base model. To pomaga globalnym wdrożeniom, ale wymaga evals na konkretnych rynkach.
Reasoning trace nie jest audytem, dopóki ktoś mu nie zaufa
Reasoning trace w safety model brzmi jak audytowalność, ale to nadal model output. Może pomóc reviewerowi, ale samo nie rozwiązuje kalibracji, bias ani false negatives.
Custom policy enforcement też nie znaczy, że governance jest gotowa. Ktoś nadal musi pisać, wersjonować, testować i rozstrzygać konflikty między lokalnymi regułami a globalną taksonomią.
Zadecydują evals poza wygodną taksonomią
Dalej warto śledzić model card, dataset, benchmarki wobec Aegis 2.0 taxonomy i wdrożenia z realnymi custom policies. Blog wspomina też safety dataset, co pomaga reprodukowalności.
Prawdziwy test przyjdzie w mniej wygodnych językach, multimodalnych edge cases i regulowanych wertykalach.
Werdykt Lilith
Nemotron 3.5 to nie tylko strażnik przy drzwiach mówiący tak albo nie. To próba wręczenia mu firmowego podręcznika i kamery, ale ktoś nadal musi sprawdzić, czy przeczytał właściwą stronę.
Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.
Oryginalne źródło ↗ ↗