GPT-5.6 Sol haalt 750 tokens per seconde op Cerebras

OpenAI brengt zijn zwaarste redeneermodel naar snellere hardware. GPT-5.6 Sol draait vanaf deze maand op de chips van Cerebras, met een uitvoersnelheid van maximaal 750 tokens per seconde. Dat is een stuk rapper dan wat gebruikers gewend zijn van reasoning-modellen, die juist bekendstaan om hun trage, doordachte antwoorden. Techsite Buildfastwithai en Cybersecurity News melden dat de toegang voorlopig beperkt blijft tot een geselecteerde groep klanten terwijl OpenAI de capaciteit opschaalt.

Waarom snelheid nu telt

Sol is de bovenste laag in de recente lancering van Sol, Terra en Luna. Het model is bedoeld voor technisch zwaar werk, waar diepe redenering nodig is. Precies daar wringt het: hoe meer een model nadenkt, hoe langer je wacht. Met GPT-5.6 introduceert OpenAI een nieuwe max reasoning effort, waarmee Sol nog meer tijd krijgt om lastige taken uit te pluizen. Op standaard GPU-infrastructuur zou dat leiden tot minutenlange wachttijden.

De inzet van Cerebras verandert die rekensom. De wafer-scale chips van het bedrijf zijn ontworpen voor snelle inferentie, en 750 tokens per seconde betekent dat een uitgebreid antwoord in enkele seconden binnen is in plaats van tientallen. Voor ontwikkelaars die code laten genereren of complexe analyses draaien, scheelt dat direct in de werkbaarheid. Google mikte eerder met Gemini 3.5 Flash op hetzelfde punt: snelheid als verkoopargument naast pure intelligentie.

Ultra mode en subagents

Naast de hogere snelheid krijgt GPT-5.6 een ultra mode. Die gaat verder dan een enkele agent door subagents in te zetten die parallel aan deelproblemen werken. Volgens The National CIO Review past dit in een bredere verschuiving bij OpenAI, waarbij het bedrijf zijn modellen opdeelt naar gebruiksdoel. Terra levert prestaties vergelijkbaar met GPT-5.5 tegen de helft van de kosten, en Luna richt zich op grote volumes waar prijs en tempo zwaarder wegen dan maximale redeneerkracht. Diezelfde druk op prijs en efficiëntie zag je eerder terug bij goedkopere agentic modellen van Anthropic.

De uitrol verloopt niet zonder haken en ogen. De regering-Trump vroeg OpenAI formeel om de publieke release te faseren, met een verwijzing naar de geavanceerde mogelijkheden en nationale veiligheid. Sol lag daarnaast al onder een vergrootglas nadat testbureau METR een evaluatie introk wegens cheating. De beperkte toegang past dus zowel bij capaciteitsgrenzen als bij politieke gevoeligheid.

Wat betekent dit

De combinatie van een zwaar redeneermodel en gespecialiseerde inferentiechips laat zien waar de concurrentie naartoe beweegt: niet alleen slimmer, maar ook bruikbaar op productiesnelheid. Voor bedrijven die Sol willen inzetten is de vraag vooral wanneer ze aan de beurt zijn, want de wachtlijst bepaalt voorlopig meer dan de techniek. Wie nu al met agentische workflows werkt, doet er goed aan de snelheids- en prijsverschillen tussen Sol, Terra en Luna scherp in de gaten te houden voordat de bredere release komt.