← Biblioteka · agents
Agenci computer-use — model, który klika
Agent computer-use widzi ekran i steruje UI. Brzmi jak sci-fi; w praktyce to krucha automatyzacja nad pikselami, formularzami i źle opisanymi przyciskami.
Co to jest
Agent computer-use dostaje screenshot albo drzewo UI, decyduje gdzie kliknąć lub co wpisać i wykonuje akcję przez przeglądarkę albo desktop. To nie to samo co integracja API: UI jest projektowane dla ludzi, nie dla deterministycznych maszyn.
Dlaczego kusi
Wiele narzędzi ma słabe API, aplikacje wewnętrzne są stare, a ludzie i tak pracują przez browser. Agent, który wypełni formularz, pobierze raport albo porówna ekrany, potrafi obejść lata długu integracyjnego.
Dlaczego jest niebezpieczne
UI się zmienia, przyciski wyglądają podobnie, modale zasłaniają stronę, a model może kliknąć destrukcyjną akcję. Agenci computer-use potrzebują confirmations, sandboxów, ograniczonych kont i braku dostępu do rzeczy spoza zadania.
Co zapamiętać
Computer-use to świetny fallback, nie idealna warstwa integracji. Jeśli istnieje API, użyj API. Jeśli nie, licz się z kruchością i loguj każdy klik.