Gemini 2.5 Computer Use: DeepMind buduje wyspecjalizowany model dla agentów klikających zamiast wywołujących API | Radar

Google DeepMind wydał w preview przez API wyspecjalizowany model Gemini 2.5 Computer Use przeznaczony dla agentów interagujących z interfejsami użytkownika. Model opiera się na możliwościach Gemini 2.5 Pro, ale był trenowany konkretnie pod kątem pracy z ekranem, a nie tylko generowania tekstu.

Agent, który czyta ekran i wykonuje kroki, a nie tylko generuje tekst

Różnica w stosunku do ogólnego modelu multimodalnego jest istotna: model do obsługi komputera musi odczytać aktualny stan UI, zidentyfikować interaktywne elementy, zaplanować sekwencję działań i je wykonać. To wymaga innego treningu niż odpowiadanie na pytania o zrzuty ekranu. DeepMind podszedł do tego, tworząc osobny wyspecjalizowany model, a nie warstwę promptowania nad istniejącym.

Dostępność jest na razie przez API w preview dla deweloperów, którzy wnioskują o dostęp. Dostępność regionalna i cennik nie były w pełni sprecyzowane w momencie publikacji, a główna strona była niedostępna podczas weryfikacji.

Computer use zmienia ekonomikę automatyzacji tam, gdzie nie ma API

Znaczna część infrastruktury oprogramowania w firmach nie ma API. CRM-y z początku lat 2000., wewnętrzne portale, legacy systemy ERP, formularze internetowe za jedną bramką uwierzytelniającą. W tych przypadkach RPA (robotic process automation) było jedyną alternatywą dla pracy ręcznej. Agent AI sterujący UI może być tańszy, bardziej adaptacyjny i zdolny do obsługi zmian interfejsu bez przeprogramowywania skryptów.

To przesuwa centrum potencjalnego wpływu z workflow deweloperów do procesów operacyjnych, których agenci kodujący do tej pory nie sięgali.

Uprawnienia agenta rosną nieliniowo, a gwarancje jakości produkcyjnej jeszcze nie istnieją

Agenci do obsługi komputera to miejsce, gdzie potencjalne szkody rosną nieliniowo wraz z uprawnieniami. Błędne kliknięcie w systemie CRM, wysłany formularz z nieprawidłowymi danymi lub zmienione ustawienia to działania z realnymi konsekwencjami, których nie można łatwo cofnąć. W odróżnieniu od generowania tekstu są to kroki nieodwracalne.

Podstawowe pytania bezpieczeństwa to: co widzi agent (jakie treści trafiają do kontekstu), jakie są granice jego uprawnień i w jaki sposób potwierdzane są destrukcyjne działania. Model w fazie preview nie daje gwarancji jakości produkcyjnej.

Testem będą realne ekrany enterprise, nie czyste dema

Warto obserwować: jak model radzi sobie z niespójnymi, przestarzałymi lub dynamicznie zmieniającymi się UI poza zademonstrowanymi scenariuszami. I co zrobią działy bezpieczeństwa, gdy uświadomią sobie, że mają w swoim środowisku agenta klikającego pod ich tożsamością.

Werdykt Lilith

Agent do obsługi komputera w środowisku firmowym to nie tylko narzędzie produktywności. To podmiot klikający pod twoją tożsamością w systemach, które zaprojektowałeś dla ludzi. Model bezpieczeństwa, który nie uwzględnia tego od początku, to tylko kwestia czasu.