OpenAI test AI-agents met GeneBench-Pro

OpenAI heeft op 30 juni GeneBench-Pro uitgebracht, een test die meet hoe goed AI-agents zich staande houden in echt computationeel biologisch onderzoek. De uitkomst is ontnuchterend: zelfs het sterkste model lost minder dan een derde van de opgaven op. Dat blijkt uit de aankondiging van OpenAI en een analyse van CryptoBriefing.

Wat GeneBench-Pro meet

De benchmark legt een AI-agent 129 opgaven voor uit de genomica, kwantitatieve biologie en translationele geneeskunde. Elke opgave koppelt een realistische, bewust rommelige dataset aan een concrete onderzoeksvraag die tot een beslissing moet leiden. De agent moet daarbij zelf de valkuilen zien: meetfouten, selectiebias, confounding, mislukte kwaliteitscontroles en de keuze tussen concurrerende modellen.

OpenAI noemt dit “research taste”, oftewel het oordeelsvermogen om te bepalen welke vragen een dataset aankan, wanneer een vroege diagnose de aanpak moet bijsturen en wanneer een resultaat klaar is om op te beslissen. Dat is iets anders dan feiten opdreunen. Het draait om de afwegingen die een ervaren onderzoeker maakt voordat een cijfer betekenis krijgt.

Zelfs de beste modellen struikelen

De cijfers laten weinig ruimte voor optimisme. GPT-5.6 Sol, het nieuwste topmodel van OpenAI, lost 28,7 procent van de opgaven op bij de hoogste redeneerstand en 31,5 procent in Pro-modus. Ter vergelijking: toen de oorspronkelijke GeneBench werd gebouwd, bleef GPT-5 onder de 5 procent. De vooruitgang is er dus, maar het plafond ligt nog laag.

Concurrenten blijven achter. Claude Opus 4.8 van Anthropic haalt 16,0 procent, Gemini 3.5 Flash van Google komt niet verder dan 8,1 procent. Volgens een overzicht van AlphaSignal zakken de topmodellen op ongeveer zeven van de tien realistische biologievragen. GPT-5.6 Sol is ook het model dat OpenAI vorige week presenteerde in zijn nieuwe reeks Sol, Terra en Luna.

Waarom een moeilijke test juist nuttig is

Benchmarks die modellen bijna perfect halen, zeggen weinig meer. GeneBench-Pro is expres zo ontworpen dat er ruimte blijft om verschil te meten. Dat sluit aan bij een breder ongemak in de sector, waar veel AI-agents nog nauwelijks openbare veiligheids- en betrouwbaarheidstests publiceren. Een strenge, controleerbare meetlat voor wetenschappelijk werk vult dat gat gedeeltelijk.

De keuze voor biologie is niet toevallig. Het vakgebied leverde eerder de doorbraak op waarvoor Demis Hassabis en John Jumper de Nobelprijs kregen, en Jumper stapte recent nog over van DeepMind naar Anthropic. De inzet is groot, want fouten in geneesmiddelenonderzoek of genetische analyse kosten geld en tijd.

Wat betekent dit

Voor wie AI wil inzetten in laboratoria en onderzoeksafdelingen is de boodschap nuchter: de huidige modellen kunnen helpen bij de analyse, maar ze vervangen het oordeel van een menselijke wetenschapper nog niet. Een agent die zeven van de tien echte opgaven mist, heeft toezicht nodig. Tegelijk laat de sprong van onder 5 naar ruim 30 procent zien hoe snel het gaat. GeneBench-Pro geeft de sector een eerlijke graadmeter, en die zal de komende modelgeneraties genadeloos afrekenen op wat ze werkelijk kunnen.