OpenAI buduje Jalapeño, bo inference stało się rachunkiem za prąd | Radar

OpenAI i Broadcom przedstawili Jalapeño, pierwszy własny Intelligence Processor OpenAI do inference LLM. Firma podaje, że chip przeszedł od projektu do tape-out w 9 miesięcy, w laboratorium uruchamia już workloady ML, a pierwsze wdrożenie ma zacząć się do końca 2026 roku.

Jalapeño celuje w inference, a nie w uniwersalny wyścig z GPU

Chip zaprojektowano do uruchamiania gotowych modeli, czyli etapu, w którym ChatGPT, Codex albo API generują odpowiedź dla użytkownika. OpenAI mówi o lepszym performance per watt niż w obecnych rozwiązaniach state-of-the-art, ale raport techniczny i niezależne benchmarki dopiero mają się pojawić.

Broadcom odpowiada za silicon implementation i technologie sieciowe, a Celestica za boardy, racki i integrację systemową. OpenAI planuje gigawatt-scale deployment z Microsoftem i innymi partnerami data center w kolejnych generacjach.

Własny chip daje dźwignię na cenę każdej odpowiedzi

Trening zgarnia nagłówki, ale inference jest rachunkiem, który wraca codziennie. Każdy prompt w ChatGPT i każdy krok agenta w Codexie oznacza koszt energii, pamięci, sieci i dostępnej mocy. Jeśli OpenAI przeniesie część tego stacku na własny silicon, zyska większy wpływ na cenę, opóźnienie i dostępność bez pełnej zależności od rynku GPU.

To kierunek znany z Google TPUs, AWS Trainium i Inferentia oraz Microsoft Maia. Różnica polega na tym, że OpenAI sprzedaje modele jednocześnie jako produkt i infrastrukturę. Własny chip do inference to nie tylko oszczędność w data center, ale element marży i niezawodności produktu.

Bez benchmarków to nadal obietnica zapakowana w wafer

Najsłabszym punktem komunikatu są pomiary. Performance per watt brzmi dobrze, ale bez zadań, baseline, batch size, opóźnienia i kosztu wdrożenia pozostaje deklaracją dostawcy. Nvidia broni się też nie samym hardwarem. Jej przewagą są software, łańcuch dostaw i lata optymalizacji w produkcji.

Jalapeño nie oznacza więc końca Nvidii u OpenAI. Bardziej wiarygodne odczytanie to hedge: przenieść część inference na własną architekturę i zmniejszyć ryzyko, że każdy wzrost produktu będzie zależał od negocjacji o dostępne akceleratory.

Raport techniczny pokaże, czy to strategia, czy tylko dodatkowa pojemność

Kolejny test jest prosty. OpenAI musi pokazać mierzalny cost-per-token, opóźnienie i niezawodność na realnych modelach, a nie tylko na wewnętrznym przykładzie GPT-5.3-Codex-Spark.

Jeśli Jalapeño ruszy na dużą skalę i obniży koszty produktów interaktywnych, będzie początkiem prawdziwej integracji pionowej. Jeśli zostanie przy wybranych workloadach, nadal pomoże w pojemności, ale strategiczny mit szybko straci powietrze.

Werdykt Lilith

Jalapeño to rachunek położony na środku stołu po drogiej kolacji z Nvidią. OpenAI jeszcze nie wychodzi z restauracji, ale po raz pierwszy liczy, ile kosztowałoby gotowanie we własnej kuchni.