OpenAI begint met infrastructuurrobots maar mikt op "een persoonlijke robot voor iedereen die alles voor je doet"
Misleidende afstemming, waarbij modellen intern accurate representaties behouden maar doelbewust foutieve output produceren, blijft een centrale uitdaging in AI-veiligheid. Terwijl strategisch bedrog het voornaamste lange-termijnzorgpunt is, biedt synthetische oneerlijkheid — opgewekt via directe optimalisatie op foute antwoorden — een gecontroleerde testomgeving voor het bestuderen van de representationele basis van aangeleerd bedrog. We introduceren een multimodel-paradigma waarin eerlijke en...
🔗 lees originele bron