Radar — Lilith AI

2025-09-05

Why language models hallucinate

10:00 · zdroj ↗

OpenAI vysvětluje halucinace jazykových modelů a tvrdí, že lepší evaluace mohou posílit spolehlivost, upřímnost a bezpečnost.

Proč to řešit: Pro nasazení v práci je to zásadní. Halucinace nejsou jen drobná chyba v chatu; mohou ovlivnit právní rešerši, medicínské informace, kód, finanční rozhodnutí nebo interní reporting. Lepší modely nestačí, pokud metriky pořád oceňují hezky formulovanou lež.

názorHalucinace nejsou jen „model je hloupý“. Často je odměňujeme za sebevědomou odpověď místo za přiznanou nejistotu.

#openai #benchmarks #ai #models #security

2025-08-27

OpenAI and Anthropic share findings from a joint safety evaluation

10:00 · zdroj ↗

OpenAI a Anthropic zveřejňují společné safety hodnocení modelů napříč misalignmentem, instruction following, halucinacemi, jailbreaky a dalšími riziky.

Proč to řešit: Rizika jako jailbreaky, halucinace, špatné následování instrukcí nebo misalignment nejsou problém jedné firmy. Pokud se modely stávají infrastrukturou, bezpečnostní testování potřebuje víc mezilaboratorní transparentnosti. Samozřejmě je tu PR vrstva — firmy ukážou to, co ukázat chtějí.

názorKdyž si laboratoře navzájem testují modely, je to zdravější než sólové PR. Pořád ale záleží, kolik metodiky pustí ven.

#openai #benchmarks #ai #models #security

2025-07-02

Information Theory for Language Models: Jack Morris

15:00 · zdroj ↗

Latent Space profiluje Jacka Morrise a informačně-teoretický pohled na jazykové modely, embeddingy a latentní reprezentace.

Proč to řešit: Základní porozumění modelům ovlivňuje praktické věci: vyhledávání, RAG, interpretovatelnost, detekci chyb, robustnost i návrh nových architektur. Bez teorie se trh snadno zasekne u povrchního porovnávání chatbotů. Ne každá důležitá práce v AI vypadá jako nový agent v prohlížeči.

názorV době agentního šílenství je užitečné číst i lidi, kteří se ptají, co modely vlastně reprezentují. Méně ohňostrojů, víc základů.

#agents #benchmarks #ai #models #coding #commentary #podcast