De veiligheidsbelasting bij LLM-veiligheidsafstemming verlagen met on-policy zelfdestillatie
Veiligheidsuitlijning verbetert vaak de robuustheid tegen schadelijke prompts ten koste van redeneervermogen — een afruil die bekend staat als de veiligheidsbelasting. Een veelvoorkomende oorzaak is distributiemismatch: supervised fine-tuning traint het doemodel op veiligheidsdemonstraties van mensen, externe modellen of vaste zelfgegenereerde voorbeelden, in plaats van op trajecten die uit het eigen beleid van het model zijn gesampled. We identificeren off-policy trainingsmismatch als een tweede bron van deze belasting en onderzoeken de gevolgen ervan.
🔗 lees originele bron