OpenAI staví Jalapeño, protože inference už je účet za elektřinu | Radar

OpenAI s Broadcomem představily Jalapeño, první vlastní Intelligence Processor pro LLM inference. OpenAI uvádí, že chip vznikl od návrhu po tape-out za 9 měsíců, v laboratoři už běží ML workloady a první nasazení má začít do konce roku 2026.

Jalapeño míří na inference, ne na univerzální závod s GPU

Chip je navržený pro provoz hotových modelů, tedy pro fázi, kdy ChatGPT, Codex nebo API generují odpověď uživateli. OpenAI mluví o lepším performance per watt než u současného state-of-the-art, ale technický report a nezávislé benchmarky teprve slibuje.

Broadcom dodává silicon implementation a síťové technologie, Celestica má řešit boardy, racky a systémovou integraci. OpenAI plánuje gigawatt-scale nasazení s Microsoftem a dalšími datacentrovými partnery přes více generací.

Vlastní chip je páka na cenu každé odpovědi

Trénink je titulkový sport, ale inference je opakovaný účet. Každý prompt v ChatGPT a každý agentický krok v Codexu znamená náklady na energii, paměť, síť a kapacitu. Pokud OpenAI dostane část tohoto stacku pod vlastní silicon, získává prostor hýbat cenou, latencí a dostupností bez úplné závislosti na trhu GPU.

To je stejný strategický směr, kterým šly Google TPUs, AWS Trainium a Inferentia nebo Microsoft Maia. Rozdíl je v tom, že OpenAI prodává modely jako produkt i infrastrukturu zároveň. Vlastní inference chip tedy není jen úspora v datacentru, ale součást marže a spolehlivosti produktu.

Bez benchmarků je to zatím slib zabalený ve waferu

Nejslabší místo oznámení je měření. Performance per watt zní dobře, ale bez úloh, baseline, batch size, latence a ceny za nasazení je to vendor claim. Nvidia se navíc nebrání jen hardwarem. Její výhoda je software, dodavatelský řetězec a roky optimalizací v produkci.

Jalapeño proto zatím neznamená konec Nvidie u OpenAI. Pravděpodobnější čtení je hedge: část inference dostat na vlastní architekturu a snížit riziko, že každý další růst produktu bude vyjednáváním o dostupných akcelerátorech.

Technický report ukáže, jestli jde o strategii, nebo jen kapacitu

Další test je prostý. OpenAI musí ukázat měřitelný cost-per-token, latenci a spolehlivost na reálných modelech, ne jen na interní ukázce GPT-5.3-Codex-Spark.

Pokud Jalapeño poběží ve velkém a sníží náklady interaktivních produktů, bude to začátek skutečné vertikální integrace. Pokud zůstane omezené na vybrané workloady, pořád může pomoci kapacitě, ale strategický mýtus kolem něj rychle splaskne.

Lilithin verdikt

Jalapeño je účet za inference přepsaný do křemíku. OpenAI tím neodchází od Nvidie, ale začíná si počítat, kolik stojí každý token, když hardware nevlastní.