OpenAI onthult eigen inferentiechip Jalapeño

OpenAI heeft samen met Broadcom zijn eerste eigen chip gepresenteerd. Het ontwerp heet Jalapeño en draait volledig om inference: het uitvoeren van getrainde modellen op het moment dat iemand een vraag stelt aan ChatGPT of een Codex-opdracht start. De aankondiging viel op 24 juni, schrijft TechCrunch.

Een chip die alleen voor inference is gebouwd

Jalapeño is geen alleskunner zoals de GPU’s van Nvidia. Het is een ASIC, een chip die voor één type werk is ontworpen. Hier gaat het om de rekenpatronen die bij grote taalmodellen het zwaarst wegen: het verplaatsen van geheugen, het netwerk tussen chips en de manier waarop tokens worden bediend. OpenAI zegt op basis van eerste tests dat de chip belangrijke taken bijna tegen de theoretische limiet van de hardware uitvoert, met volgens het bedrijf duidelijk betere prestaties per watt dan de huidige alternatieven.

Het bedrijf legt de nadruk op kosten. Inference is de plek waar AI bij gebruikers terechtkomt, en elke besparing daar vertaalt zich naar een snellere ChatGPT, goedkopere API-toegang of een Codex-taak die meer stappen kan zetten zonder lange wachttijd. OpenAI-president Greg Brockman zegt tegen TechCrunch dat zijn team de werklast tot in detail kent: “We hebben gezocht naar specifieke onderbenutte werklasten en hoe we kunnen versnellen wat mogelijk is.”

Negen maanden van ontwerp tot tape-out

Opvallend is het tempo. OpenAI en Broadcom brachten de chip in negen maanden van eerste ontwerp naar tape-out, het punt waarop een ontwerp naar de fabriek gaat. Tom’s Hardware noemt dat mogelijk de snelste ontwikkelcyclus ooit voor een geavanceerde high-performance chip. De afspraak past in een bredere samenwerking die het tweetal in oktober aankondigde: 10 gigawatt aan door OpenAI ontworpen accelerators, die Broadcom vanaf de tweede helft van 2026 in racks uitrolt en uiterlijk eind 2029 af moet hebben. De eerste Jalapeño-chips moeten eind dit jaar draaien.

Een tik richting Nvidia

Met een eigen chip volgt OpenAI het pad van Google, dat al jaren zijn TPU’s bouwt, en van Amazon met Trainium. Door zelf te ontwerpen kan OpenAI kennis uit zijn modellen direct in de hardware stoppen, iets wat met standaard-GPU’s lastiger is. Een breuk met Nvidia is het niet: het zwaardere pre-trainen van modellen blijft voorlopig op GPU’s draaien. Jalapeño richt zich op de inference-kant, waar het volume en dus de stroomrekening het hardst oploopt.

De zet sluit aan bij een bredere golf in de chipsector. Eerder berichtte AI Feiten al over de geplande overname van chipmaker Tenstorrent door Qualcomm en over DeepSeek dat zijn nieuwste model volledig op Huawei-chips draait. Tegelijk loopt de vraag naar stroom voor AI-datacenters hard op, een knelpunt dat zuinigere eigen chips deels kan verlichten.

Wat betekent dit

Voor gebruikers verandert er op korte termijn weinig zichtbaars. De winst zit onder de motorkap: lagere kosten per antwoord en meer capaciteit als de drukte toeneemt. Voor OpenAI is het een stap naar een eigen stack, van model tot silicium, op een moment dat het bedrijf ook werkt aan een beursgang. Of Jalapeño de inferencekosten echt drukt, blijkt pas als de chips eind dit jaar in productie gaan. Tot die tijd is het vooral een signaal: OpenAI wil minder afhankelijk zijn van wie zijn rekenkracht levert.