Wanneer veiligheidsgeometrie instort: kwetsbaarheden bij fine-tuning van agentische guard-modellen

onderzoek 📅 2026-05-06

arXiv:2605.02914v1 Aankondigingstype: nieuw Samenvatting: Een bewakingsmodel dat is afgestemd op volkomen goedaardige gegevens kan alle veiligheidsafstemming verliezen - niet door vijandige manipulatie, maar door standaarddomeinspecialisatie. We demonstreren dit falen bij drie speciaal gebouwde veiligheidsclassificatoren – LlamaGuard, WildGuard en Granite Guardian – die worden ingezet als beschermingslagen in agentische AI-pijpleidingen, en laten zien dat dit zijn oorsprong vindt in de vernietiging van latente veiligheidsgeometrie: de gestructureerde, schadelijke – goedaardige brand.

🔗 lees originele bron