AI-modellen volgen hun waarden beter als ze eerst leren waarom die waarden ertoe doen

analyse 📅 2026-05-07

Uit een onderzoek van het Anthropic Fellows Program blijkt dat AI-modellen veel beter vasthouden aan de beoogde waarden wanneer ze eerst leren wáárom die waarden belangrijk zijn, voordat ze specifiek gedrag aanleren — zelfs in situaties die niet in de training voorkwamen.

🔗 lees originele bron