Stałe koncepty świata AI. Krótko i z opinią.
LLM z tool use, pętlą i pamięcią. Dużo marketingu, mało definicji. Tu jest wersja bez owijania.
Claude Code, Codex i reszta to nie magiczny junior. To szybka pętla: czytaj kod, edytuj, uruchom testy, napraw skutki. Przydatne, ale tylko z barierkami.
Agent computer-use widzi ekran i steruje UI. Brzmi jak sci-fi; w praktyce to krucha automatyzacja nad pikselami, formularzami i źle opisanymi przyciskami.
Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.
Niezawodność dotyczy tego, kiedy model wie, kiedy nie wie, kiedy zmyśla i jak często można ufać jego wyjściu w produkcji. Elegancki styl nie jest dowodem.
Kiedy model nie ma w głowie twoich danych, dociąga je z vector store albo z fulltextu. RAG to wzorzec, nie produkt.
Agent z narzędziami to mała maszyna do konsekwencji. Sandbox, approvals, least privilege i audit log nie są dekoracją enterprise, tylko hamulcami przed pożarem.
Prompt injection to nie popisowy jailbreak. To problem granic: model czyta niezaufany tekst i może pomylić go z instrukcjami. Przy agentach pali dwa razy mocniej.