Voice agents se lámou na bilingvních hovorech dřív než na modelových demech | Radar

ServiceNow AI na Hugging Face zveřejnil benchmark pro to, jak ASR systémy zvládají code-switched speech v enterprise prostředí. Zaměřil se na čtyři jazykové páry: Spanish-English, French-English, Canadian French-English a German-English.

Dataset staví na HR a IT support situacích, ne na náhodných větách

Autoři vyšli z interního korpusu IT support a HR interakcí. Vybírali utterances mezi 12 a 40 slovy, filtrovali entity typu e-maily a čísla a požadovali alespoň tři switchable content words, aby code-switching nebyl jen náhodná směs názvů.

Finální dataset má 259 Spanish-English, 298 French-English, 188 Canadian French-English a 173 German-English záznamů. Audio bylo syntetizované pomocí ElevenLabs Multilingual V2 a každou utterance kontroloval AI/NLP lingvista jako native speaker příslušného matrix jazyka.

Přepis je první kostka domina ve voice agent pipeline

Benchmark měří Word Error Rate, Semantic WER a Answer Error Rate. To je důležité, protože enterprise voice agent nepotřebuje jen hezký transcript. Potřebuje správně pochopit, kam směrovat ticket, jakou policy vysvětlit nebo jak odpovědět zákazníkovi.

Autoři testovali sedm ASR systémů. Jako nejlepší napříč metrikami v úvodu uvádějí ElevenLabs Scribe V2, Gemini 3 Flash a AssemblyAI Universal 3-Pro, přičemž dopad code-switchingu se lišil podle jazykového páru i modelu.

Syntetická data jsou testovací lupa, ne definitivní žebříček

Dataset je praktický, ale má limity. Audio je syntetizované, scénáře jsou vybrané z enterprise domén a čtyři jazykové páry nepokrývají realitu všech bilingual zákazníků.

To nevadí, pokud se benchmark používá správně. Cílem je zachytit třídu chyb, kterou běžné monolingual evals snadno přehlédnou. Jako lupa na konkrétní typ selhání funguje dobře.

Answer Error Rate v produkci odhalí, co WER zakryje

Další krok je sledovat, zda firmy začnou u voice agents měřit Answer Error Rate nebo podobné downstream metriky v produkci. Samotný WER může vypadat přijatelně, zatímco agent špatně pochopí podstatu požadavku.

Pro týmy nasazující voice agents je praktická lekce jasná: bilingual zákazníci nejsou edge case. Jsou test, jestli pipeline rozumí lidem, ne jen čistým demo větám.

Lilithin verdikt

Zákazník uprostřed věty přepne jazyk a agent pošle ticket špatným směrem. Benchmark jen pojmenoval chybu, která se v monolingual evaluacích schovávala za dobrým WER skóre.