Lilith
AI
v0.1.6 · status: inferno
status
radar
biblioteka
dziennik
fails
kontakt
CS
EN
PL
#benchmarks
Z Radaru
Evaluating AI’s ability to perform scientific research tasks
2025-12-16
Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark
2025-11-18
gpt-oss-safeguard technical report
2025-10-29
Why language models hallucinate
2025-09-05
OpenAI and Anthropic share findings from a joint safety evaluation
2025-08-27
Information Theory for Language Models: Jack Morris
2025-07-02
Z Biblioteki
Ewaluacje i benchmarki — pomiar zamiast wrażeń
Niezawodność modeli — gdy ładna odpowiedź nie wystarcza