OpenAI test AI in echt laboratoriumwerk met LifeSciBench

OpenAI heeft een nieuwe meetlat gelegd voor kunstmatige intelligentie in de echte wetenschap. Het lab publiceerde op 17 juni LifeSciBench, een toets die nagaat hoe goed AI-modellen zich redden bij biologisch onderzoek, en de eerste resultaten temperen de hooggespannen verwachtingen. Tegelijk liet OpenAI zien dat een model met weinig menselijke sturing een lastige scheikundige reactie wist te verbeteren.

Wat LifeSciBench meet

LifeSciBench bestaat uit 750 opdrachten die door experts zijn opgesteld, verdeeld over zeven werkstromen en zeven biologische vakgebieden. De taken vragen modellen om experimentele data te lezen, te redeneren over complexe biologische systemen en wetenschappelijk houdbare hypotheses op te stellen. Volgens OpenAI haalde het best presterende model, GPT-Rosalind, een score van 36,1 procent. Dat komt neer op ongeveer een op de drie taken, zoals TechTimes in zijn berichtgeving samenvatte.

Dat cijfer zegt twee dingen tegelijk. AI kan inmiddels serieus meedraaien in delen van het onderzoeksproces, maar van een zelfstandige wetenschapper is nog lang geen sprake. Benchmarks blijven de manier waarop labs hun vooruitgang aantonen, net zoals bij SWE-Bench Pro voor programmeerwerk. Het verschil is dat een biologische opdracht zich minder makkelijk laat nakijken dan een stuk code dat wel of niet draait.

Een model dat zelf een reactie verbetert

Naast de benchmark deelde OpenAI onderzoek over een bijna autonome AI-chemicus. Samen met het bedrijf Molecule.one zette het model GPT-5.4 in om een belangrijke reactie in de medicinale chemie te verbeteren, met minimale tussenkomst van mensen. De verschuiving zit in de rol: niet langer een assistent die bestaande scheikunde analyseert, maar een systeem dat zelf naar nieuwe routes zoekt.

De motor onder dit werk is GPT-Rosalind, het redeneermodel dat OpenAI begin deze maand presenteerde voor biologie, medicijnontwikkeling en translationeel onderzoek. Wie de eerdere aankondiging miste, leest in onze marktupdate over GPT-Rosalind hoe het model is opgebouwd. De stap naar een lab dat zelf experimenten voorstelt past in een patroon dat OpenAI eerder schetste met zijn playbook voor AI-evaluaties.

Waarom toetsen nu belangrijker worden

De timing is geen toeval. Modellen worden sneller losgelaten op gevoelige terreinen, van het laboratorium tot de spreekkamer. Dat maakt een nuchtere maatstaf nodig die laat zien wat AI wel en niet aankan, zonder de marketingtaal van een lancering. Eerder schreven we al over de risico’s van AI in de zorg in ons stuk over AI-therapie via chatbots, waar het verschil tussen indruk en betrouwbaarheid letterlijk om mensen gaat.

Wat betekent dit

Voor onderzoekers betekent een score van 36 procent dat AI vandaag een hulpmiddel is, geen vervanger. Het versnelt literatuuronderzoek, stelt reacties voor en doorzoekt data, maar de controle blijft bij de wetenschapper. Voor bedrijven die medicijnontwikkeling willen versnellen geeft de autonome chemicus een eerste concreet bewijs dat de aanpak werkt, al gaat het om één reactie en niet om een hele pijplijn. De interessantste vraag is wie de volgende benchmark wint. Zodra een ander model boven die 36 procent uitkomt, weten we of dit een uitschieter was of het begin van een echte versnelling in AI-gedreven wetenschap.