Nvidia heeft een plan om zijn chips in personal computers te krijgen

nieuws 📅 2026-06-01

Misleidende afstemming, waarbij modellen intern accurate representaties behouden maar bewust foute uitvoer produceren, blijft een centraal probleem in AI-veiligheid. Dit onderzoek introduceert een multi-modelparadigma waarin eerlijke en oneerlijke modellen worden vergeleken, met synthetische oneerlijkheid — aangeleerd via directe optimalisatie op foute antwoorden — als gecontroleerde proeftuin om de representationele basis van aangeleerd bedrog te bestuderen.

🔗 lees originele bron