evaluatie
Nieuwe arXiv-paper Elmes* maakt LLM’s beter meetbaar in het onderwijs (en dat is hard nodig)
ArXiv introduceert Elmes*: een framework dat fijnmazige rubrics bouwt om LLM’s in long-tail onderwijs-scenario’s eerlijker en consistenter te evalueren.
OpenAI publiceert Frontier Governance Framework: waarom AI-governance nu een productfeature wordt
OpenAI heeft een Frontier Governance Framework gepubliceerd dat uitlegt hoe het bedrijf veiligheid, security en risicobeheersing voor ‘frontier’ AI-systemen organiseert—en hoe dat aansluit op opkomende regels in de EU en Californië.
OpenAI zet Parloa in de etalage: waarom “agent management” de volgende strijd om klantenservice wordt
OpenAI publiceert een case study over Parloa’s Agent Management Platform (AMP). De kern: niet het model, maar testen, tooling en beheer bepalen of voice-agents echt werken in productie.
