Nieuwe benchmark toont aan dat Claude Mythos en GPT-5.5 zelfstandig echte browser-exploits kunnen ontwikkelen

analyse 📅 2026-05-16

Onderzoekers van Carnegie Mellon University bouwden een nieuwe benchmark die meet hoe ver AI-agents kunnen gaan bij het uitbuiten van echte kwetsbaarheden in Google's V8-engine. Mythos leidt met ruime marge op GPT-5.5, maar kost twaalf keer zoveel.

🔗 lees originele bron