2025-10-23 · ← Radar
Gemini 2.5 Computer Use: DeepMind staví speciální model pro agenty, kteří klikají místo čtení API
Google DeepMind vydal v preview přes API specializovaný model Gemini 2.5 Computer Use určený pro agenty, kteří interagují s uživatelskými rozhraními. Model staví na schopnostech Gemini 2.5 Pro, ale byl specificky trénován na práci s obrazovkou, ne jen na generování textu.
Agent, který čte obrazovku a provádí kroky, ne jen generuje text
Rozdíl oproti obecnému multimodálnímu modelu je podstatný: computer use model musí číst aktuální stav UI, identifikovat interaktivní prvky, plánovat posloupnost akcí a provést je. To vyžaduje jiný trénink než odpovídání na otázky o screenshotech. DeepMind k tomu přistoupil vytvořením samostatného specializovaného modelu, nikoliv prompting layeru nad stávajícím.
Dostupnost je zatím přes API v preview, tedy pro vývojáře, kteří si přístup vyžádají. Regionální dostupnost a pricing v době zveřejnění zprávy nebyly plně specifikovány, primární stránka byla při kontrole nepřístupná.
Computer use mění ekonomiku automatizace tam, kde API neexistuje
Podstatná část podnikové software infrastruktury nemá API. CRM ze začátku tisíciletí, interní portály, legacy ERP systémy, webové formuláře s jedinou autentizační bránou. Pro tyto případy byl doposud RPA (robotic process automation) jedinou alternativou k ruční práci. AI agent ovládající UI může být levnější, adaptivnější a schopný zvládat změny rozhraní bez přeprogramování skriptů.
To přesouvá těžiště potenciálního dopadu mimo vývojářské workflow do operačních procesů, které coding agenti dosud nedosáhli.
Computer-use agent v produkci: oprávnění rostou, záruky kvality zatím ne
Computer-use agenti jsou místo, kde potenciální škoda roste nelineárně s pravomocí. Špatné kliknutí v CRM systému, odeslaný formulář s nesprávnými daty nebo změněné nastavení jsou akce s reálným dopadem, které nelze jednoduše vrátit. Na rozdíl od generování textu jde o nevratné kroky.
Základní bezpečnostní otázky jsou: co vidí agent (jaký obsah se dostane do contextu), jaká je mez jeho oprávnění a jak se potvrzují destruktivní akce. Model v preview fázi neposkytuje záruky produkční kvality.
Testem bude práce na reálných enterprise obrazovkách, ne na čistých demech
Sledovat: jak si model vede na nekonzistentních, zastaralých nebo dynamicky se měnících UI mimo předvedené scénáře. A co si s modelem udělají bezpečnostní týmy, jakmile si uvědomí, že mají ve svém prostředí agenta, který kliká pod jejich identitou.
Lilithin verdikt
Computer-use agent ve firemním prostředí není jen produktivitní nástroj. Je to entita, která kliká pod vaší identitou v systémech, které jste navrhovali pro lidi. Security model, který to nezohledňuje od začátku, je jen otázkou času.
Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.
Původní zdroj ↗ ↗Ze Slovníku