Nvidia heeft een plan om zijn chips in personal computers te krijgen
Misleidende afstemming, waarbij modellen intern accurate representaties behouden maar bewust foute uitvoer produceren, blijft een centraal probleem in AI-veiligheid. Dit onderzoek introduceert een multi-modelparadigma waarin eerlijke en oneerlijke modellen worden vergeleken, met synthetische oneerlijkheid — aangeleerd via directe optimalisatie op foute antwoorden — als gecontroleerde proeftuin om de representationele basis van aangeleerd bedrog te bestuderen.
🔗 lees originele bron