Bezpečnost agentů a sandboxing | Slovník

Zlaté pravidlo: Nedávej agentovi práva, která bys nedal novému brigádníkovi první den. Sandbox není projev nedůvěry k modelu — je to uznání faktu, že text umí spouštět akce.

Proč na tom záleží

Chatbot může říct nesmysl. Agent může spustit příkaz, poslat e-mail, otevřít ticket, kliknout na tlačítko nebo změnit data. Jakmile model dostane ruce, bezpečnost přestává být abstraktní debata a začíná být provozní riziko.

Základní vrstvy obrany

Sandbox omezuje, kam agent smí sáhnout. Approvals zastaví nevratné akce. Least privilege znamená, že nástroj má jen práva potřebná pro danou práci. Audit log je černá skříňka, bez které se po incidentu jen hádá.

Co je špatný signál

Agent běží s plným přístupem k repu, síti a secrets, aniž by uživatel schvaloval rizikové kroky. Nebo má deset nástrojů, které model špatně rozlišuje. To není autonomie. To je ruleta s tokeny.

Kam dál

The lethal trifecta — kdy se agent stává zranitelným: data + cizí vstup + kanál ven.
OWASP Top 10 for LLM Applications — checklist rizik LLM aplikací, prompt injection je jednička.

Co si pamatovat

Bezpečný agent není ten, který nikdy neudělá chybu. Bezpečný agent je ten, jehož chyba má malý blast radius a jasnou stopu.