arXiv
Bebop belooft snellere RL-training voor LLM’s met ‘MTP + rejection sampling’: wat staat er in de nieuwe arXiv-paper?
Een nieuwe arXiv-publicatie (Bebop) stelt een methode voor die reinforcement learning (RL) bij LLM’s sneller maakt door MTP te combineren met rejection sampling. Wat betekent dit voor trainingkosten en iteratiesnelheid?
Nieuwe arXiv-paper Elmes* maakt LLM’s beter meetbaar in het onderwijs (en dat is hard nodig)
ArXiv introduceert Elmes*: een framework dat fijnmazige rubrics bouwt om LLM’s in long-tail onderwijs-scenario’s eerlijker en consistenter te evalueren.
AI-geheugen wordt slimmer: van ChatGPT ‘Dreaming’ tot MemRepair voor tool-agents
OpenAI’s Dreaming en arXiv-onderzoek (MemRepair) laten zien hoe AI-assistenten en agents hun geheugen steeds slimmer bijwerken.
Nieuwe arXiv-paper koppelt MCP aan wetenschappelijke kennisgrafieken: wat mcp-proto-okn belooft
ArXiv beschrijft mcp-proto-okn: een MCP-server die AI-assistenten kennisgrafieken laat bevragen via natuurlijke taal en SPARQL.
SkillOpt op arXiv: een ‘optimizer’ die agent-skills stap voor stap beter maakt
Twee nieuwe arXiv-studies laten zien hoe AI-agents vaardigheden (‘skills’) kunnen genereren én gecontroleerd verbeteren met feedback.
Nieuwe arXiv-papers mikken op goedkoper én betrouwbaarder LLM-redeneren (met minder tokens)
Nieuwe arXiv-papers richten zich op één bottleneck van AI-reasoning: hoge tokenkosten. VecCISC belooft ~47% minder tokens door redeneringen te clusteren; Rubric-Grounded RL gebruikt rubrics voor beter generaliseerbare reasoning.
