Jalapeño przesuwa OpenAI z modeli do własnego krzemu | Radar

OpenAI i Broadcom zaprezentowali Jalapeño, pierwszy własny chip OpenAI do inference dla LLM. Firma rozciąga swój stack od produktów i modeli aż po krzem, czyli warstwę, w której rozstrzyga się koszt każdego zapytania.

OpenAI buduje chip pod rachunki za inference, nie pod gablotę

Jalapeño ma być akceleratorem zaprojektowanym pod inference obecnych i przyszłych LLM. Próbki inżynieryjne działają już w laboratorium z docelową częstotliwością i poborem mocy, także na workloadzie GPT-5.3-Codex-Spark.

Firmy twierdzą, że chip przeszedł od projektu do produkcji w 9 miesięcy, a wczesne testy pokazują wyraźnie lepszą wydajność na wat niż obecny state of the art. Końcowych metryk jeszcze nie ma. Raport techniczny ma się pojawić w kolejnych miesiącach.

Plan zakłada wdrożenia w centrach danych w skali gigawatów od końca 2026 roku, razem z Microsoftem i innymi partnerami. Broadcom odpowiada za implementację krzemu, sieci i łączność, a Celestica pomaga przy płytach, rackach i integracji systemowej.

Prawdziwym produktem jest tańszy runtime ChatGPT

Własny chip nie jest pokazem, że OpenAI potrafi zaprojektować ładny sprzęt. Chodzi o to, że inference w produktach takich jak ChatGPT jest powtarzalnym kosztem przy każdym prompcie, odpowiedzi i pętli agenta.

Google ma TPU, Amazon ma Trainium, a Meta od lat inwestuje we własną infrastrukturę. OpenAI idzie logiką hyperscalerów: jeśli jeden dostawca akceleratorów kontroluje twoją pojemność i roadmapę, ma też wpływ na twoją marżę. Własny chip do inference daje dźwignię na cenę i na to, które modele opłaca się obsługiwać masowo.

Dla zespołów developerskich i enterprise nie zmieni to API z dnia na dzień. Jeśli obietnica wydajności na wat się potwierdzi, z czasem może przełożyć się na szybsze modele, tańsze uruchamianie agentów albo bardziej hojne limity w produktach.

Bez publicznych benchmarków to nadal obietnica w krzemie

Największa luka jest prosta: nie ma publicznego zestawu konkretnych benchmarków. Wydajność na wat to właśnie metryka, która ma znaczenie, ale na razie opiera się głównie na deklaracji firm. Jalapeño celuje też w inference, a nie w pełne zastąpienie infrastruktury treningowej.

Ryzykiem pozostaje integracja. Chip może dobrze wyglądać w laboratorium, ale ekonomię zmienią dopiero racki, sieć, software, yield, serwis i ruch prawdziwego ChatGPT. Sam krzem nie spłaca rachunku za compute.

Ceny, opóźnienia i skala po 2026 roku pokażą prawdę

Warto śledzić trzy sygnały: raport techniczny, pierwsze realne wdrożenia u partnerów oraz zmiany cen lub limitów w OpenAI API. Dopiero tam zobaczymy, czy Jalapeño obniża koszty, czy tylko daje OpenAI kolejną kartę w rozmowach z Nvidią.

Jeżeli OpenAI zacznie dzięki własnym chipom taniej i szerzej serwować modele do kodowania, będzie to mocniejszy sygnał niż jakiekolwiek hasło o full stacku.

Werdykt Lilith

Jalapeño to rachunek za erę agentów położony na biurku Sama Altmana: kto chce rozdawać miliardy tokenów dziennie, musi pilnować każdego wata jak drobnych w kasie.