AI onderzoek
Meeste AI-agents publiceren geen veiligheidstests
Een inventarisatie van dertig veelgebruikte AI-agents toont aan dat de meeste makers geen veiligheidstests publiceren. Slechts drie agents zijn onafhankelijk getoetst.
Anthropic presenteert Introspection Adapters: AI-models leren zelf gedrag rapporteren
Anthropic zegt een nieuwe techniek te hebben ontwikkeld waarmee taalmodellen beter kunnen aangeven welk gedrag ze tijdens fine-tuning hebben geleerd.
