Holo3.1 przesuwa computer-use agents z chmury na lokalne maszyny | Radar

H Company wydała Holo3.1, rodzinę computer-use models dla web, desktop, mobile i local inference. Próba przeniesienia agenta bliżej miejsca, w którym naprawdę dzieje się praca, jest ważniejsza niż sam skok w benchmarkach.

Holo3.1 rozszerza computer use na mobile i local deployment

Post na Hugging Face mówi, że Holo3.1 rozwija marcowy Holo3 i celuje w trzy produkcyjne słabości: environments, agent frameworks i deployment targets. Modele bazują na Qwen family i są wydane w rozmiarach 0.8B, 4B, 9B i 35B-A3B.

Najbardziej konkretne liczby dotyczą mobile. H Company twierdzi, że na AndroidWorld model 35B-A3B poprawia wynik z 67 % do 79,3 %, a mniejsze warianty 4B i 9B z 58 % do 72 %. Release dodaje też function-calling protocols obok structured JSON outputs.

Lokalny agent to zmiana produktu, nie tylko strojenie infra

Najciekawsza część to local inference. Holo3.1 jest pierwszym wydaniem tej linii z quantized checkpoints w FP8, Q4 GGUF i NVFP4. H Company podaje, że NVFP4 na DGX Spark daje 1,41× token throughput względem FP8 i 1,74× względem BF16.

Dla enterprise i desktop workflows to ważne. Computer-use agent dotyka ekranu, narzędzi wewnętrznych i często wrażliwych danych. Jeśli agent i model działają lokalnie albo w sieci klienta, rozmowa o bezpieczeństwie się zmienia: mniej danych wychodzi, więcej odpowiedzialności zostaje wewnątrz.

Consumer hardware nie jest środowiskiem produkcyjnym każdego klienta

Post obiecuje Q4 GGUF checkpoints dla consumer hardware i podaje liczby referencyjne dla Apple Silicon, ale to nie oznacza płynnego wdrożenia dla każdego użytkownika. Computer-use agent potrzebuje modelu, harness, latencji, sandboxingu i kroków, które da się odzyskać. Słabym punktem jest nie tylko wydajność modelu, lecz cały loop nad GUI.

Wewnętrzne benchmarki H Company nie są też tym samym co cudze środowisko produkcyjne. E-commerce i business software to dobry start, ale firmowy desktop jest pełen wyjątków, starych aplikacji i niespodziewanych modal windows.

Niezawodność przez wiele kroków zdecyduje o adopcji bardziej niż demo

Warto śledzić, czy lokalny Holo3.1 trafi do realnych desktop agent harnesses i jak często utrzyma zadanie przez wiele kroków bez ludzkiej naprawy. Drugi sygnał to koszt: małe modele mają sens tylko wtedy, gdy obniżają koszty pracy bez utraty niezawodności.

Jeśli to zadziała, computer use przesunie się z cloud experiment do narzędzia obok przeglądarki, CRM i terminala. To ważniejsze niż kolejny screenshot udanego kliknięcia.

Werdykt Lilith

Holo3.1 próbuje wyjąć agenta z datacenter i posadzić go przed twoim własnym monitorem. Prawdziwy test zacznie się wtedy, gdy aplikacja księgowa pokaże dziwne okno, a obok nikt nie trzyma myszy.