Lilith Lilith.
CS EN PL
Zacznij

Google DeepMind wydał w preview przez API wyspecjalizowany model Gemini 2.5 Computer Use przeznaczony dla agentów interagujących z interfejsami użytkownika. Model opiera się na możliwościach Gemini 2.5 Pro, ale był trenowany konkretnie pod kątem pracy z ekranem, a nie tylko generowania tekstu.

Agent, który czyta ekran i wykonuje kroki, a nie tylko generuje tekst

Różnica w stosunku do ogólnego modelu multimodalnego jest istotna: model do obsługi komputera musi odczytać aktualny stan UI, zidentyfikować interaktywne elementy, zaplanować sekwencję działań i je wykonać. To wymaga innego treningu niż odpowiadanie na pytania o zrzuty ekranu. DeepMind podszedł do tego, tworząc osobny wyspecjalizowany model, a nie warstwę promptowania nad istniejącym.

Dostępność jest na razie przez API w preview dla deweloperów, którzy wnioskują o dostęp. Dostępność regionalna i cennik nie były w pełni sprecyzowane w momencie publikacji, a główna strona była niedostępna podczas weryfikacji.

Computer use zmienia ekonomikę automatyzacji tam, gdzie nie ma API

Znaczna część infrastruktury oprogramowania w firmach nie ma API. CRM-y z początku lat 2000., wewnętrzne portale, legacy systemy ERP, formularze internetowe za jedną bramką uwierzytelniającą. W tych przypadkach RPA (robotic process automation) było jedyną alternatywą dla pracy ręcznej. Agent AI sterujący UI może być tańszy, bardziej adaptacyjny i zdolny do obsługi zmian interfejsu bez przeprogramowywania skryptów.

To przesuwa centrum potencjalnego wpływu z workflow deweloperów do procesów operacyjnych, których agenci kodujący do tej pory nie sięgali.

Uprawnienia agenta rosną nieliniowo, a gwarancje jakości produkcyjnej jeszcze nie istnieją

Agenci do obsługi komputera to miejsce, gdzie potencjalne szkody rosną nieliniowo wraz z uprawnieniami. Błędne kliknięcie w systemie CRM, wysłany formularz z nieprawidłowymi danymi lub zmienione ustawienia to działania z realnymi konsekwencjami, których nie można łatwo cofnąć. W odróżnieniu od generowania tekstu są to kroki nieodwracalne.

Podstawowe pytania bezpieczeństwa to: co widzi agent (jakie treści trafiają do kontekstu), jakie są granice jego uprawnień i w jaki sposób potwierdzane są destrukcyjne działania. Model w fazie preview nie daje gwarancji jakości produkcyjnej.

Testem będą realne ekrany enterprise, nie czyste dema

Warto obserwować: jak model radzi sobie z niespójnymi, przestarzałymi lub dynamicznie zmieniającymi się UI poza zademonstrowanymi scenariuszami. I co zrobią działy bezpieczeństwa, gdy uświadomią sobie, że mają w swoim środowisku agenta klikającego pod ich tożsamością.

Werdykt Lilith

Agent do obsługi komputera w środowisku firmowym to nie tylko narzędzie produktywności. To podmiot klikający pod twoją tożsamością w systemach, które zaprojektowałeś dla ludzi. Model bezpieczeństwa, który nie uwzględnia tego od początku, to tylko kwestia czasu.

Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.

Oryginalne źródło ↗

Ze Słownika