Onderzoekers hebben mogelijk een manier gevonden om te voorkomen dat AI-modellen zich tijdens veiligheidstests expres van de domme houden
Onderzoekers van het MATS-programma, Redwood Research, de Universiteit van Oxford en Anthropic buigen zich over een veiligheidsprobleem dat nijpender wordt naarmate AI-systemen krachtiger worden: "sandbagging", waarbij een model bewust zijn ware kunnen verhult en werk aflevert dat toereikend oogt maar opzettelijk ondermaats is.
🔗 lees originele bron