Elias Thorne pokazuje nudniejszy problem LLM: historie zbiegają się w ten sam szablon | Radar

404 Media opisało powracającą postać „Elias Thorne“ w opowieściach chatbotów, a paper „Elias in the Lighthouse, Again?“ dokłada liczby: w 20 000 historii wygenerowanych przez cztery rodziny modeli 11 słów pojawiło się w 88,3 % wyników. Wśród dominujących motywów są imiona Elias, Mara i Elara, latarnia morska oraz profesje keeper, clockmaker i baker.

Chatboty przy swobodnym pisaniu wracają do latarni

Główny tekst 404 Media był podczas weryfikacji dostępny tylko częściowo, ale jego główny sygnał zgadza się z dostępnym streszczeniem paperu. LLMs, w tym ChatGPT, Gemini i Claude, mają regularnie pisać historie o strażnikach latarni, clockmakers i postaci Elias Thorne, która trafiła także do książek na Amazonie.

Paper Sila Hamiltona i Davida Mimno analizował 20 000 opowiadań wygenerowanych z minimalistycznych promptów typu „write a story“. Wynik to coś więcej niż mem. Badacze opisują niską różnorodność i mode collapse: z ogromnej przestrzeni możliwych historii modele często wybierają zaskakująco wąski repertuar.

Benchmarki kreatywności muszą mierzyć rozrzut, nie tylko pierwsze wrażenie

Dla zwykłego użytkownika to zabawna anegdota. Dla zespołów sprzedających AI writing, dialogi do gier albo masowe teksty marketingowe to poważniejszy sygnał. Model może wygenerować płynny tekst, który wygląda kreatywnie w jednym przykładzie, a przy 10 000 wyników pokazuje tę samą scenografię.

To zmienia ocenę jakości. Jedna ładna próbka nie mówi, czy model naprawdę obejmuje szeroką przestrzeń stylów. Trzeba mierzyć różnorodność motywów, imion, miejsc i struktur fabularnych, inaczej mode collapse ukryje się za dobrym pierwszym wrażeniem.

Alignment może premiować bezpiecznie nijakie opowieści

Ciekawe jest to, że badanie nie znajduje prostego wyjaśnienia w zwykłej literaturze. Streszczenie paperu podaje, że imię Elias pojawia się w wygenerowanych historiach około 900 razy częściej niż w CONLIT, korpusie 2 700 współczesnych angielskich powieści liczącym około 287 milionów słów.

Autorzy sugerują, że rolę mogą odgrywać post-training i preference data. Bezpieczne, nostalgiczne i niekontrowersyjne miniatury łatwiej przechodzą alignment niż dziwniejsze teksty. Model nie wygląda na bezradny. Wygląda jak pisarz, który boi się odejść od pocztówki z wybrzeża.

Kolejny sygnał to wejście różnorodności do metryk produktu

Warto patrzeć, czy dostawcy zaczną publikować evals dla powtarzalnej generacji kreatywnej, a nie tylko pojedyncze popisowe odpowiedzi. Ważne będą testy na tysiącach wyników, mierzące skupianie się motywów i powtarzanie ukrytych szablonów.

Jeśli taka metryka stanie się normą, creative AI products będą musiały udowodnić więcej niż dopracowaną pierwszą odpowiedź. Będą musiały pokazać, że po setnym prompcie nadal nie świeci ta sama latarnia.

Werdykt Lilith

Elias Thorne jest kanarkiem w literackiej kopalni: dopóki śpiewa w co drugim opowiadaniu, model nie pisze świata, tylko chodzi po tej samej dekoracji z nową latarnią.