Voice agents psują się na dwujęzycznych rozmowach szybciej niż w dopracowanych demach | Radar

ServiceNow AI opublikował na Hugging Face benchmark tego, jak systemy ASR radzą sobie z code-switched speech w środowisku enterprise. Skupia się na czterech parach językowych: Spanish-English, French-English, Canadian French-English i German-English.

Dataset opiera się na HR i IT support, nie na losowych zdaniach

Autorzy wyszli z wewnętrznego korpusu interakcji IT support i HR. Wybierali utterances od 12 do 40 słów, odfiltrowali przypadki pełne entities, takich jak e-maile i numery, oraz wymagali co najmniej trzech switchable content words, żeby code-switching nie był tylko przypadkową mieszanką nazw.

Finalny dataset ma 259 rekordów Spanish-English, 298 French-English, 188 Canadian French-English i 173 German-English. Audio zsyntetyzowano przy użyciu ElevenLabs Multilingual V2, a każdą utterance sprawdzał AI/NLP linguist będący native speaker odpowiedniego matrix language.

Transkrypcja jest pierwszą kostką domina w voice agent pipeline

Benchmark raportuje Word Error Rate, Semantic WER i Answer Error Rate. To ważne, bo enterprise voice agent nie potrzebuje tylko ładnego transcriptu. Musi poprawnie skierować ticket, wyjaśnić policy albo odpowiedzieć klientowi.

Autorzy ocenili siedem systemów ASR. We wstępie wskazują ElevenLabs Scribe V2, Gemini 3 Flash i AssemblyAI Universal 3-Pro jako najlepsze modele przekrojowo przez metryki, przy czym dodatkowy koszt code-switchingu różni się według pary językowej i modelu.

Dane syntetyczne to lupa testowa, nie ostateczny ranking

Dataset jest użyteczny, ale ograniczony. Audio jest syntetyczne, scenariusze pochodzą z domen enterprise, a cztery pary językowe nie obejmują pełnej rzeczywistości klientów dwujęzycznych.

To nie problem, jeśli benchmark jest używany właściwie. Jego celem jest wychwycenie klasy błędów, którą zwykłe monolingual evals łatwo pomijają. Jako lupa na ten konkretny typ awarii działa dobrze.

Answer Error Rate w produkcji ujawni to, co WER ukrywa

Następnym krokiem jest to, czy firmy zaczną mierzyć Answer Error Rate lub podobne downstream metrics w produkcyjnych voice agents. WER może wyglądać akceptowalnie, gdy agent źle rozumie sedno prośby.

Dla zespołów wdrażających voice agents lekcja jest jasna: klienci dwujęzyczni nie są edge case. To test, czy pipeline rozumie ludzi, a nie tylko czyste zdania z demo.

Werdykt Lilith

Klient w połowie zdania zmienia język, a agent po cichu wysyła ticket do złej kolejki. Benchmark tylko nazwał błąd, który chował się za dobrym wynikiem WER w monolingual ewaluacjach.