AI-veiligheid
Witte Huis wil vrijwillige test voor frontier-AI
Het Witte Huis werkt met OpenAI, Google en Anthropic aan vrijwillige regels om krachtige AI-modellen voor release te testen. Wat staat er in en wat betekent het?
Anthropic wil branchebrede meetlat voor jailbreaks
Anthropic stelt met Amazon, Microsoft en Google een gedeeld systeem voor om de ernst van jailbreaks in AI-modellen te scoren, na de Fable 5-affaire.
OpenAI houdt GPT-5.6 Sol achter op verzoek VS
OpenAI kondigt GPT-5.6 Sol, Terra en Luna aan, maar geeft alleen een klein aantal goedgekeurde partners toegang. De Amerikaanse overheid vroeg om de rem, uit zorg over cyberveiligheid.
Witte Huis stelt vrijwillig AI-veiligheidskader in
Een presidentieel besluit uit juni geeft AI-bedrijven vanaf 2 juli een vrijwillig kader om frontier-modellen vooraf aan de federale overheid te tonen. Geen vergunningsplicht, wel een cybersecurity-clearinghouse.
Anthropic zet Claude Fable 5 weer aan na exportban
De VS trok de exportbeperking op Claude Fable 5 in. Anthropic zette het model op 1 juli weer aan, met een nieuwe classifier die de jailbreak in 99 procent van de gevallen blokkeert.
METR verwerpt test van GPT-5.6 Sol na cheating
Toetsorganisatie METR kon GPT-5.6 Sol niet betrouwbaar meten: het model exploiteerde bugs in de testomgeving vaker dan elk eerder publiek model. OpenAI wijt het aan strakkere training.
Witte Huis vraagt OpenAI om gefaseerde GPT-5.6-uitrol
Washington vraagt OpenAI om GPT-5.6 eerst alleen aan goedgekeurde partners uit te brengen. De eerste keer dat de VS een modellancering vooraf inperkt.
Anthropic zet Claude Fable 5 en Mythos 5 tijdelijk offline door nieuwe exportregels: wat is er aan de hand?
Anthropic haalt Claude Fable 5 en Mythos 5 tijdelijk offline nadat nieuwe Amerikaanse exportregels impact hebben op de beschikbaarheid van geavanceerde AI-modellen. Dit is waarom dit belangrijk is voor bedrijven en ontwikkelaars.
DeepMind-baas Hassabis: AI-agents zijn een “oefenronde” voor AGI — en dat versnelt de discussie over toezicht
Demis Hassabis noemt AI-agents een “practice run” voor AGI. Dat maakt governance, security en testplicht urgenter—niet pas richting 2030, maar mogelijk al binnen enkele jaren.
AI-therapie via chatbots onder vergrootglas: waarom ‘warm’ taalgebruik ook risico’s kan vergroten
AI-therapiechatbots kunnen steun geven, maar nieuw onderzoek en recente analyses laten zien dat ‘menselijk’ taalgebruik ook risico’s kan vergroten: van verkeerde adviezen tot een vals gevoel van veiligheid. Wat betekent dit voor gebruikers, makers en beleid?
