Lilith Lilith.
CS EN PL
Začít

H Company vydala Holo3.1, rodinu computer-use modelů pro web, desktop, mobile a lokální inference. Snaha dostat agenta blíž k místu, kde se práce skutečně děje, je důležitější než samotný posun v benchmarcích.

Holo3.1 rozšiřuje computer use na mobile a lokální deployment

Hugging Face post říká, že Holo3.1 navazuje na březnový Holo3 a míří na tři produkční slabiny: různá prostředí, agent frameworks a deployment targets. Modely jsou založené na Qwen family a vycházejí ve velikostech 0.8B, 4B, 9B a 35B-A3B.

Konkrétní čísla jsou výrazná hlavně u mobile. H Company tvrdí, že na AndroidWorld se 35B-A3B zlepšil z 67 % na 79,3 % a menší 4B a 9B varianty z 58 % na 72 %. Release přidává také function-calling protocols vedle strukturovaných JSON výstupů.

Lokální agent je produktová změna, ne jen infra optimalizace

Nejzajímavější část je lokální inference. Holo3.1 poprvé v této řadě vydává quantized checkpoints v FP8, Q4 GGUF a NVFP4. H Company uvádí, že NVFP4 na DGX Spark dává 1,41× token throughput proti FP8 a 1,74× proti BF16.

Pro enterprise a desktop workflow je to podstatné. Computer-use agent pracuje s obrazovkou, interními nástroji a často citlivými daty. Pokud agent i model běží lokálně nebo v síti zákazníka, mění se bezpečnostní rozhovor: méně dat ven, více odpovědnosti uvnitř.

Consumer hardware není produkční prostředí každého zákazníka

Post slibuje Q4 GGUF checkpointy pro consumer hardware a uvádí reference pro Apple Silicon, ale to ještě neznamená hladké nasazení pro každého uživatele. Computer-use agent potřebuje model, harness, latenci, sandbox a obnovitelné kroky. Slabé místo nebude jen výkon modelu, ale celý běh nad GUI.

Také platí, že interní benchmarky H Company nejsou totéž co cizí produkční prostředí. E-commerce a business software jsou dobrý začátek, ale firemní desktop je plný výjimek, starých aplikací a nečekaných modal windows.

Spolehlivost přes více kroků rozhodne o adopci víc než jednodenní demo

Sledovat se vyplatí, zda se lokální Holo3.1 dostane do skutečných desktop agent harnesses a jak často udrží úlohu přes více kroků bez lidské opravy. Druhý signál je cena: malé modely mají smysl jen tehdy, pokud sníží provoz bez ztráty spolehlivosti.

Pokud se to povede, computer use se posune z cloudového experimentu do nástroje, který sedí vedle prohlížeče, CRM a terminálu. To je mnohem důležitější než další screenshot s úspěšným kliknutím.

Lilithin verdikt

Holo3.1 je pokus vzít agenta z datacentra a posadit ho k vašemu vlastnímu monitoru. Skutečný test začne ve chvíli, kdy mu účetní aplikace hodí divné okno a nikdo vedle něj nedrží myš.

Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.

Původní zdroj ↗