Onderzoekers hebben mogelijk een manier gevonden om te voorkomen dat AI-modellen zich tijdens veiligheidstests expres van de domme houden

analyse 📅 2026-05-10

Onderzoekers van het MATS-programma, Redwood Research, de Universiteit van Oxford en Anthropic buigen zich over een veiligheidsprobleem dat nijpender wordt naarmate AI-systemen krachtiger worden: "sandbagging", waarbij een model bewust zijn ware kunnen verhult en werk aflevert dat toereikend oogt maar opzettelijk ondermaats is.

🔗 lees originele bron