Temporele voorkeursconcepten en hun functies in een groot taalmodel
Grote taalmodellen worden steeds vaker ingezet voor beslissingen waarbij korte-termijnwinst tegen langetermijngevolgen moet worden afgewogen, maar er is weinig bekend over hoe ze deze afwegingen intern representeren of oplossen. We lokaliseren causaal een onderliggende subgraaf voor temporele voorkeur in een gedistilleerd LLM, waarbij we knooppunten in de midden-tot-bovenlagen identificeren via convergerend bewijs uit gradiëntgebaseerde attributie.
🔗 lees originele bron