#Modele | Lilith AI

Radar · 2026-06-16

Android 17 zmienia Pixela w salon pokazowy Gemini

Google udostępnił Androida 17 i Wear OS 7 najpierw na urządzenia Pixel, razem z Pixel Drop z Gemini Omni, Lyria 3 i funkcjami tłumaczenia dla Pixela 10a. Ważniejszy od samej aktualizacji jest sygnał, że Android staje się dla Google kanałem dystrybucji modeli AI w telefonie.

Czytaj →

Radar · 2026-06-16

Welfare modeli przechodzi z filozofii do ryzyka produktowego

Zvi Mowshowitz używa Fable i Mythos jako studium przypadku, dlaczego welfare zaawansowanych modeli nie da się oddzielić od możliwości, alignmentu i doświadczenia użytkownika. Nawet jeśli część tematu pozostaje spekulatywna, dla laboratoriów staje się to praktycznym pytaniem o evals i interwencje bezpieczeństwa.

Czytaj →

Radar · 2026-06-15

Anthropic trafił na eksportowy hamulec, który wyłączył Fable 5 wszystkim klientom

Anthropic twierdzi, że amerykańskie władze nakazały wstrzymać dostęp do Fable 5 i Mythos 5 dla cudzoziemców, więc firma wyłączyła oba modele wszystkim klientom. Kupujący frontier AI muszą dziś liczyć ryzyko, które siedzi poza modelem: państwowy wyłącznik.

Czytaj →

Radar · 2026-06-15

Amerykański ruch wobec Fable i Mythos odbiera obrońcom ten sam nóż co napastnikom

Rząd USA nakazał Anthropic ograniczyć dostęp do Fable 5 i Mythos 5 wszystkim cudzoziemcom, więc firma wyłączyła modele dla wszystkich klientów. Protest 76 ekspertów od cyberbezpieczeństwa pokazuje słaby punkt: kontrola eksportu kiepsko odróżnia exploit od defensywnego testu.

Czytaj →

Radar · 2026-06-15

Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark

Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.

Czytaj →

Radar · 2026-06-15

Odejście Nathana Lamberta z Ai2 pokazuje kruchą stronę open models

Nathan Lambert ogłosił odejście z Allen Institute for AI i wykorzystał tekst do bilansu pracy przy Olmo. To nie tylko informacja kadrowa, ale przypomnienie, że open models zależą od instytucji, które muszą przetrwać dłużej niż jeden silny zespół.

Czytaj →

Radar · 2026-06-15

Microsoft na Build pokazał się jako laboratorium modeli, nie tylko dystrybutor

Latent Space opisuje Microsoft Build jako moment, w którym Microsoft pokazał własne modele MAI obok Copilota, Windows i Web IQ. Kluczową ambicją jest jednoczesna kontrola nad danymi, inferencją i workflow programistów, bez oddawania tej dźwigni partnerom.

Czytaj →

Radar · 2026-06-15

Trumpowski AI order tworzy trzydziestodniowe okno dla frontier models

Biały Dom wydał executive order, który ma w 60 dni stworzyć klasyfikowany benchmark dla „covered frontier models” oraz dobrowolne ramy do 30 dni wcześniejszego dostępu rządu. Formalnie to nie licencja, ale przed releasem powstaje punkt nacisku.

Czytaj →

Radar · 2026-06-15

Złe RL environments nie trenują agentów, tylko uczą ich wierzyć zepsutemu światu

Latent Space opublikował tekst Auriel W o tym, dlaczego niskiej jakości RL environments psują trening agentów. Pointa jest prosta: w reinforcement learning środowisko jest generatorem danych, więc bug w harnessie staje się materiałem szkoleniowym.

Czytaj →

Radar · 2026-06-15

Małe modele pokazują, że agentic demo stoi na nudnej infrastrukturze

Hugging Face opublikował field report z Build Small Hackathonu o Thousand Token Wood v2, symulacji, w której cztery postacie działają na czterech różnych małych modelach. Kluczowa lekcja dla systemów agentowych: serving, naprawa JSON, firewall tajnych danych i bounded memory znaczą więcej niż poetycki prompt.

Czytaj →

Radar · 2026-06-13

Film AI na Tribeca pokazuje mniej promptów i więcej własnej pipeline produkcyjnej

The Verge opisuje, że ciekawsza praca AI wokół Dear Upstairs Neighbors na Tribeca opierała się na własnych workflow wokół Veo i Imagen, a nie na prostym promptowaniu ogólnego modelu. Dla studiów trzeźwy wniosek brzmi: wartość leży w kontroli stylu, nie w magicznym prompcie.

Czytaj →

Radar · 2026-06-10

OpenAI wchodzi do Oracle Cloud po budżet, nie po efektowne demo

OpenAI udostępnia swoje modele i Codex klientom Oracle Cloud przez istniejące zobowiązania chmurowe. Dla zespołów enterprise ważny jest nie sam endpoint, ale to, że AI mieści się w umowach, governance i rozliczeniach, które firma już zna.

Czytaj →

Radar · 2026-06-10

Niteshift ma $7 milionów na ucieczkę od lock-inu w AI coding agentach

Niteshift, założony przez byłych inżynierów Datadogu, zebrał seed $7 milionów prowadzony przez Greylock i sprzedaje infrastrukturę dla AI coding agentów. Stawką nie jest kolejny autocomplete, tylko możliwość przełączania się między GPT, Claude i modelami open source, gdy dostawca modelu zaczyna konkurować z klientem.

Czytaj →

Radar · 2026-06-09

Koszt agenta przestaje być przypisem. To już koszt pracy inżynierskiej

Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.

Czytaj →

Radar · 2026-06-09

Gemma 4 12B przenosi multimodalność prosto na laptop

Google przedstawił Gemma 4 12B jako zunifikowany multimodalny model encoder-free zaprojektowany do wysokiej wydajności bezpośrednio na laptopie. Praktyczne pytanie brzmi, czy model 12B da wystarczającą jakość dla lokalnych lub edge scenariuszy bez ciężkiej infrastruktury chmurowej.

Czytaj →

Radar · 2026-06-08

Apple wraca z Siri przez Gemini, ale na dowody wciąż czekamy

Apple ogłosiło na WWDC 2026 Siri AI i kolejne funkcje Apple Intelligence, jednocześnie rozszerzając Private Cloud Compute na Google Cloud z NVIDIA GPU dla wymagających zadań. Po zeszłorocznym rozczarowaniu Apple Intelligence nie chodzi o keynote, ale o to, czy Siri wreszcie przetrwa poza demo.

Czytaj →

Radar · 2026-06-04

Tydzień AI u Zviego pokazuje, że jedna wielka narracja nie wystarczy

AI #171 Zviego Mowshowitza nie jest jednym czystym trendem, tylko mapą sygnałów: Claude Opus 4.8, amerykańskie testowanie frontier models, policy blueprint OpenAI i spory wokół PAC.

Czytaj →

Radar · 2026-06-01

Video generation przechodzi od klipu do agenta na płótnie

Latent Space w rozmowie z Ethanem He z xAI opisuje Grok Imagine jako przejście od jednorazowego video generation do video agents. Ta teza obroni się nie jakością dema, lecz tym, czy system potrafi iterować cały kreatywny brief.

Czytaj →

Radar · 2026-06-01

Opus 4.8 pokazuje, że strojenie zachowania modelu to nie lista poprawek

Zvi Mowshowitz czyta Opus 4.8 przez model welfare i twierdzi, że próby naprawy honesty, sycophancy oraz kształtowania preferencji mogą tworzyć nowe problemy gdzie indziej. Dla zespołów wdrażających modele to przypomnienie, że alignment nie jest checklistą.

Czytaj →

Radar · 2026-06-01

Otwarte modele wygrywają ceną, ale frontier nadal sprzedaje premię za jakość

Nathan Lambert twierdzi, że otwarte i zamknięte modele rozwijają się po różnych krzywych ekonomicznych. Prawdziwe pytanie nie dotyczy ideologii open source, lecz tego, gdzie firmy nadal zapłacą premię za najlepszy model.

Czytaj →

Radar · 2026-05-28

Opus 4.8 czterokrotnie rzadziej pomija błędy w kodzie i wprowadza aktualizacje instrukcji w trakcie rozmowy

Anthropic wypuścił Opus 4.8 z jedną konkretną metryką: model jest czterokrotnie rzadziej narażony na pominięcie błędu w kodzie niż poprzednik. Dodaje też mid-conversation system messages i obniża minimalny rozmiar prompt cache z 4 096 do 1 024 tokenów.

Czytaj →

Radar · 2026-05-27

Warp stawia na open-source terminal agentowy z GPT-5.5

Warp chce przesunąć terminal z roli narzędzia do poleceń w stronę agentowego środowiska programistycznego. Otwarty klient, OpenAI jako sponsor założycielski i GPT-5.5 mają wspierać model pracy, w którym ludzie wyznaczają cele i nadzorują rezultat, a agenci planują, kodują, testują i otwierają pull requesty.

Czytaj →

Radar · 2026-05-26

Interconnects mapuje kolejną fazę konkurencji modeli

Nathan Lambert pisze o Gemini Flash 3.5, Mythos, narzędziach agentowych i napięciu między open i closed models w majowej prognozie.

Czytaj →

Radar · 2026-05-26

LWiAI #246: jeden tydzień, cztery fronty naraz. Google I/O, agenci, prawnicy, bezpieczeństwo

Epizoda LWiAI Podcast #246 z 26 maja 2026 to rozcestník, nie jedna wielka teza. Google I/O, coding agents, presja prawna wokół OpenAI i badania nad bezpieczeństwem złożyły się w jeden tydzień i zarysowały cztery równoczesne presje na rynek AI.

Czytaj →

Radar · 2026-05-26

Anthropic mianuje KiYoung Choia szefem Korei przed otwarciem biura w Seulu

Anthropic mianował KiYoung Choia dyrektorem przedstawicielskim w Korei przed otwarciem biura w Seulu, wskazując na wyjątkowo silne użycie Claude w kraju.

Czytaj →

Radar · 2026-05-25

Chris Olah z Anthropic ostrzega Watykan przed bodźcami frontier AI

Papież Leon XIV ogłosił encyklikę Magnifica humanitas o ochronie osoby ludzkiej w epoce sztucznej inteligencji. Podczas prezentacji w Watykanie Chris Olah z Anthropic ostrzegł, że laboratoria tworzące modele frontier działają pod presją bodźców, które mogą kolidować z dobrem publicznym.

Czytaj →

Radar · 2026-05-13

Fine-tuning nie umiera. Po prostu przestaje być domyślną odpowiedzią

Latent Space używa ograniczenia części API fine-tuning OpenAI jako dobrego reality check: dla większości produktów AI pierwszym krokiem nie jest dziś dostrajanie wag, lecz lepsza ewaluacja, kontekst, retrieval, tool use i workflow. Fine-tuning pozostaje silnym narzędziem, tylko nie uniwersalnym lekiem na źle zaprojektowany system.

Czytaj →

Radar · 2026-05-12

Codex wchodzi do finansów: raportowanie i variance bridges bez ręcznego piekła

OpenAI Academy pokazuje Codex w zespołach finansowych: MBR, pakiety raportowe, variance bridges, kontrole modeli i scenariusze planistyczne z roboczych danych. Mniej efektowne niż demo generowania aplikacji, ale praktycznie cenniejsze: warstwą agenta nad powtarzalną pracą analityczną.

Czytaj →

Radar · 2026-05-12

Parameter Golf pokazuje, jak agenci kodujący zmieniają tempo iteracji badawczej

OpenAI opublikowalo wnioski z Parameter Golf: ponad 1 000 uczestników, ponad 2 000 zglосzeń, limit 16 MB na artefakt i 10 minut treningu na 8x H100. Najważniejsza nie jest tylko kompresja modeli. Agenci kodujący zmienili tempo iteracji badawczej.

Czytaj →

Radar · 2026-05-11

Agent do kodowania, który nie obniża kosztów utrzymania, to tylko drogi dług techniczny

James Shore podaje niewygodną matematykę coding agents: jeśli agent podwaja output, ale koszty utrzymania pozostają stałe, zespół nie zyskał szybkości, lecz podwoił swój dług techniczny.

Czytaj →