AI-modellen volgen hun waarden beter als ze eerst leren waarom die waarden ertoe doen
Uit een onderzoek van het Anthropic Fellows Program blijkt dat AI-modellen veel beter vasthouden aan de beoogde waarden wanneer ze eerst leren wáárom die waarden belangrijk zijn, voordat ze specifiek gedrag aanleren — zelfs in situaties die niet in de training voorkwamen.
🔗 lees originele bron