OpenAI laat zien hoe je coding agents veilig inzet: zo draait Codex met sandboxing en approvals

OpenAI heeft een kijkje gegeven in hoe het intern Codex uitrolt — en dat is interessant nieuws voor iedereen die AI-coding agents wil inzetten zonder de controle te verliezen. In Running Codex safely at OpenAI beschrijft het bedrijf een praktische set maatregelen: een sandbox als harde technische grens, expliciete approvals voor riskantere acties en ‘agent-native’ logs voor audit en incident response.

Het onderwerp is actueel omdat agents steeds vaker meer doen dan alleen code voorstellen: ze draaien commando’s, praten met tooling en kunnen (per ongeluk) buiten de bedoelde context opereren. Dat risico zie je ook terug in nieuw onderzoek: de arXiv-paper Partial Evidence Bench waarschuwt dat agent-systemen soms antwoorden geven die “compleet” lijken, terwijl relevante informatie buiten hun toegangsrechten valt.

Sandboxing: één duidelijke technische grens

Volgens OpenAI werkt Codex productief binnen een bounded environment: de sandbox bepaalt waar de agent mag schrijven, of netwerktoegang is toegestaan en welke paden beschermd blijven (OpenAI, Running Codex safely). Dat is belangrijk, omdat je hiermee voorkomt dat “handige” autonomie verandert in onverwachte side effects — bijvoorbeeld scripts die per ongeluk buiten je repo gaan rommelen.

Approvals en ‘auto-review’: snelheid op laag risico, pauze op hoog risico

De tweede laag is governance: approval policy bepaalt wanneer Codex moet vragen om toestemming, bijvoorbeeld als een actie buiten de sandbox valt. OpenAI noemt ook een Auto-review mode die bepaalde low-risk requests automatisch kan goedkeuren om developers niet constant te onderbreken (OpenAI, bron). Het patroon is herkenbaar: laat standaardhandelingen soepel doorlopen, maar maak ‘grensoverschrijdende’ acties expliciet en reviewbaar.

Netwerkbeleid en credentials: geen open internet voor je agent

Opvallend is dat OpenAI Codex niet met “open-ended outbound access” draait. In plaats daarvan is er een managed network policy met verwachte bestemmingen, blokkades en approvals voor onbekende domeinen (OpenAI, bron). Ook worden credentials volgens OpenAI veilig opgeslagen (o.a. OS keyring) en gekoppeld aan enterprise controls.

Dit sluit aan bij een bredere beweging in security: OpenAI bouwt ook aan identity- en trust-gestuurde toegang voor gevoelige workflows. In Scaling Trusted Access for Cyber legt het bedrijf uit hoe ‘Trusted Access’ geverifieerde defenders meer ruimte geeft binnen duidelijke grenzen en met extra accountbeveiliging.

Agent-native telemetry: audit trails die ook het ‘waarom’ uitleggen

Traditionele logs vertellen vaak wat er gebeurde (proces gestart, file gewijzigd), maar niet waarom. OpenAI zegt daarom agent-native telemetry te exporteren (o.a. via OpenTelemetry) voor prompts, approval decisions, tool results en network allow/deny events, zodat security teams incidenten beter kunnen duiden (OpenAI, Running Codex safely).

Wat betekent dit voor AI Feiten-lezers?

Voor organisaties die nu met agents willen experimenteren is de les simpel: autonomie zonder grenzen is geen ‘innovatie’, maar een risico. Bouw je een coding agent, behandel hem dan als een nieuwe medewerker met adminrechten: beperk toegang, maak uitzonderingen expliciet en zorg dat je achteraf kunt reconstrueren wat er is gebeurd.

Op AI Feiten zagen we al hoe snel het ecosysteem opschaalt rond agentische workflows, bijvoorbeeld bij OpenAI’s Realtime API en voice agents, en hoe productkeuzes impact hebben op vertrouwen, zoals bij ChatGPT-ads in de pilot. Ook relevant: onze stukken over GPT-5.5 Instant als standaardmodel en GPT‑5.5‑Cyber met Trusted Access, omdat capability en governance steeds vaker samen worden uitgerold.

Conclusie: OpenAI’s Codex-post maakt iets duidelijk wat in veel demo’s ontbreekt: veilige agents zijn niet één feature, maar een stapel keuzes — sandboxing, netwerkbeleid, approvals én audit-telemetrie. Wie dat vanaf dag één goed neerzet, kan sneller schalen zonder achteraf brandjes te blussen.