Nieuwe arXiv-papers mikken op goedkoper én betrouwbaarder LLM-redeneren (met minder tokens)

Inference-time ‘reasoning’ is krachtig, maar duur. Hoe langer een model redeneert (en hoe vaker je meerdere antwoorden laat genereren), hoe hoger je tokenrekening. Op arXiv verschenen dit weekend meerdere papers die precies dat pijnpunt aanpakken: betrouwbaarheid omhoog, kosten omlaag.

Een opvallend voorbeeld is VecCISC, een methode die de populaire self-consistency aanpak (meerdere redeneringen samplen en stemmen) combineert met een slimme filter op semantische gelijkenis. Het doel: minder kandidaat-antwoorden laten beoordelen door een extra ‘critic’-model, zonder dat de nauwkeurigheid instort (arXiv:2605.08070).

1) VecCISC: minder critic-calls door redeneringen te clusteren

Klassieke self-consistency werkt vaak goed, maar vereist veel samples. Een recente verbetering is Confidence-Informed Self-Consistency (CISC): je laat een critic LLM per kandidaat een confidence-score geven en doet dan een gewogen stem.

De nieuwe paper VecCISC stelt dat je die extra critic-calls kunt terugbrengen door redeneringstraces eerst te filteren op semantische overlap (en daarbij ook ‘degenerate’ of gehallucineerde traces weg te gooien). In hun evaluatie rapporteren de auteurs 47% minder totale token usage, terwijl de nauwkeurigheid gelijk blijft of stijgt op vijf datasets (arXiv:2605.08070; zie ook de cs.AI ‘recent’ lijst van 11 mei 2026 op arXiv).

2) Rubric-Grounded RL: belonen op deelcriteria in plaats van één score

Een tweede paper draait om training: Rubric-Grounded RL gebruikt een LLM-judge die antwoorden niet met één holistische score beoordeelt, maar langs meerdere verifieerbare criteria (een ‘rubric’). Dat levert een partial credit signaal op tijdens optimalisatie.

De auteurs trainen hiermee een Llama-3.1-8B-Instruct variant met GRPO en melden verbeteringen op reasoning benchmarks zoals GSM8K, MATH en GPQA (arXiv:2605.08061). Interessant: ook hier gaat het indirect om kosten, omdat betere generalisatie betekent dat je minder agressief hoeft te “brute-forcen” met veel samples.

Voor wie zelf met deze modellen werkt, begint de winst trouwens al een laag eerder. Leon Tindemans, die teams traint in het prompts schrijven voor AI, ziet dat dagelijks terug.

“Een scherpe prompt scheelt vaak meer tokens dan welke truc onder de motorkap ook. Wie precies vraagt, hoeft het model minder vaak te laten gokken.” Leon Tindemans, AI-expert en Copilot- & ChatGPT-trainer

3) Waarom dit past in een bredere trend: efficiëntie wint

Dit soort onderzoek sluit aan bij wat we op AI Feiten vaker zien: de industrie zoekt manieren om AI-capaciteit slimmer te gebruiken in plaats van alleen maar meer compute te kopen. Denk aan:

AllenAI’s EMO maakt Mixture-of-Experts eindelijk écht modulair (en dus goedkoper te draaien): https://ai-feiten.nl/nieuws/emo-modulaire-moe/
Anthropic verhoogt Claude-limieten na compute-deal met SpaceX: waarom capaciteit nu het echte AI-nieuws is: https://ai-feiten.nl/nieuws/anthropic-claude-limieten-spacex-compute/

En aan de productkant: zodra agents en browser-automatisering doorbreken, wordt inference-efficiëntie nóg belangrijker (minder tokens per taak, meer taken per uur):

Google stopt Project Mariner: wat betekent dat voor AI-agents in je browser?: https://ai-feiten.nl/nieuws/google-stopt-project-mariner/
OpenAI laat zien hoe je Codex veilig inzet: approvals, sandboxing en OpenTelemetry-audit logs: https://ai-feiten.nl/nieuws/codex-veilig-approvals-sandbox-otel/

Wat betekent dit (nu al) voor builders?

Voor teams die LLM’s inzetten in productie zijn er drie praktische lessen:

Meet tokens per correct antwoord, niet alleen accuracy. VecCISC laat zien dat je winst kunt pakken in de route naar het antwoord.
Overweeg ‘judge’/critic-architecturen, maar optimaliseer de overhead. Een critic die alles moet scoren kan je pipeline duurder maken dan nodig.
Kijk naar beloningsstructuur bij finetuning: rubrics kunnen een stabieler signaal geven dan een alles-of-niets reward.

Conclusie

De hype gaat vaak over ‘slimmere’ modellen, maar de stille doorbraak zit steeds vaker in slimmer rekenen. Als technieken als VecCISC breed worden toegepast, kunnen reasoning-achtige systemen goedkoper draaien — en daardoor op meer plekken worden ingezet.

Bronnen (in de tekst):

arXiv paper VecCISC (arXiv:2605.08070): https://arxiv.org/abs/2605.08070
arXiv paper Rubric-Grounded RL (arXiv:2605.08061): https://arxiv.org/abs/2605.08061
arXiv cs.AI recent listing (11 mei 2026): https://arxiv.org/list/cs.AI/recent