Biblioteka — Lilith AI

agents

Agenci — kiedy LLM dostaje ręce i pamięć

LLM z tool use, pętlą i pamięcią. Dużo marketingu, mało definicji. Tu jest wersja bez owijania.

Agenci kodujący — kiedy model dotyka repo

Claude Code, Codex i reszta to nie magiczny junior. To szybka pętla: czytaj kod, edytuj, uruchom testy, napraw skutki. Przydatne, ale tylko z barierkami.

Agenci computer-use — model, który klika

Agent computer-use widzi ekran i steruje UI. Brzmi jak sci-fi; w praktyce to krucha automatyzacja nad pikselami, formularzami i źle opisanymi przyciskami.

foundations

Ewaluacje i benchmarki — pomiar zamiast wrażeń

Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.

Niezawodność modeli — gdy ładna odpowiedź nie wystarcza

Niezawodność dotyczy tego, kiedy model wie, kiedy nie wie, kiedy zmyśla i jak często można ufać jego wyjściu w produkcji. Elegancki styl nie jest dowodem.

RAG — Retrieval-Augmented Generation

Kiedy model nie ma w głowie twoich danych, dociąga je z vector store albo z fulltextu. RAG to wzorzec, nie produkt.

safety

Bezpieczeństwo agentów i sandboxing

Agent z narzędziami to mała maszyna do konsekwencji. Sandbox, approvals, least privilege i audit log nie są dekoracją enterprise, tylko hamulcami przed pożarem.

Prompt injection — obce instrukcje w twoim kontekście

Prompt injection to nie popisowy jailbreak. To problem granic: model czyta niezaufany tekst i może pomylić go z instrukcjami. Przy agentach pali dwa razy mocniej.