DeepInfra haalt $107 miljoen op voor inference cloud: waarom tokens en latency nu bepalend zijn

DeepInfra, een cloudplatform dat zich volledig richt op het draaien van AI-modellen (“inference”) op productieschaal, heeft een Series B van 107 miljoen dollar aangekondigd. De ronde werd volgens het bedrijf mede geleid door 500 Global en Georges Harik, met deelname van onder meer NVIDIA, Samsung Next en Supermicro. Het nieuws past in een bredere trend: niet het trainen, maar het goedkoop en voorspelbaar uitvoeren van modellen wordt steeds vaker de bottleneck voor bedrijven die AI in hun processen willen verankeren.

Wat is er precies aangekondigd?

In de aankondiging (via Globe Newswire) zegt DeepInfra dat het geld bedoeld is om de inference-cloud en internationale capaciteit op te schalen. Het bedrijf positioneert zich als alternatief voor ‘algemene’ cloudinfrastructuur, die volgens DeepInfra niet is ontworpen voor always-on agent-workflows met veel opeenvolgende modelcalls.

Techsite SiliconANGLE beschrijft hoe DeepInfra inzet op een verticaal geïntegreerde stack (hardware tot API’s), en dat het platform inmiddels 190+ open modellen ondersteunt. In dezelfde berichtgeving wordt ook genoemd dat DeepInfra een “zero data retention”-beleid biedt voor enterprise-klanten.

Waarom inference nu het ‘echte slagveld’ is

De laatste maanden zie je dat de aandacht verschuift van “welk model is het slimst?” naar “welk systeem is het bruikbaar in productie?” Inferencekosten, latency en betrouwbaarheid bepalen of een agent of chatbot prettig aanvoelt én betaalbaar blijft. NVIDIA vat dat fenomeen samen als ‘tokenomics’: de prijs per miljoen tokens is voor veel teams de praktische KPI die bepaalt of een use case rendabel is (NVIDIA-blog).

Die focus sluit aan op eerdere AI Feiten-berichtgeving over het belang van latency en schaalbaarheid in real-time toepassingen. Lees bijvoorbeeld onze analyse over OpenAI’s lage-latency spraak-AI via WebRTC, of het bredere overzicht waarom spraak-AI nu draait om latency, TTS en toezicht.

Open modellen + nieuwe GPU-generaties: versneller voor ‘agentic’ apps

DeepInfra koppelt zijn verhaal nadrukkelijk aan open modellen en agentic workflows. In een eigen technische blogpost over het draaien van workloads op de NVIDIA Blackwell-platform claimt het bedrijf dat combinaties van MoE-modellen, quantization en optimalisaties de kosten per token sterk kunnen drukken (met voorbeelden van kosten per 1M tokens in verschillende configuraties). NVIDIA zelf benadrukt eveneens dat meerdere inferenceproviders met Blackwell de cost-per-token omlaag brengen, juist in combinatie met open source modellen (NVIDIA).

Voor de markt betekent dit: wie agent-apps bouwt (bijvoorbeeld customer support agents, research agents of workflow-automatisering) krijgt meer keuze. Niet alleen qua model, maar ook qua infrastructuurlaag. Dat maakt de ‘build vs buy’-discussie opnieuw relevant: ga je voor hyperscalers, of voor specialistische inference clouds?

Wat betekent dit (nu) voor teams die AI willen inzetten?

1) Reken met tokens, niet met hype. Maak de kosten per taak concreet (aantal calls, contextlengte, expected traffic). In agentic workflows kan één taak tientallen modelcalls nodig hebben—dus elke milliseconde latency en elke cent per token telt.

2) Open modellen worden aantrekkelijker in productie. Niet omdat ze altijd “beter” zijn, maar omdat ze onderhandelingsruimte geven: je kunt sneller switchen en vendor lock-in verminderen. Dat sluit aan bij onze eerdere uitleg waarom inference en chips het nieuwe AI-slagveld worden.

3) Infra-innovatie gaat door, ook buiten de grote clouds. De fundingronde laat zien dat investeerders geloven dat gespecialiseerde inference-laag een eigen categorie is. Dat kan leiden tot scherpere prijzen, betere latency en meer enterprise-features (zoals dataretentiebeleid en compliance) voor eindgebruikers.

Bottom line: DeepInfra’s 107 miljoen dollar is geen ‘modelnieuws’, maar wél een signaal dat de AI-markt volwassen wordt. De winnaars van de komende fase zijn niet alleen de makers van de slimste modellen, maar ook de partijen die inference voorspelbaar, snel en goedkoop maken—zodat AI-agents echt op schaal kunnen draaien.