Nieuwe benchmark toont aan dat Claude Mythos en GPT-5.5 zelfstandig echte browser-exploits kunnen ontwikkelen
Onderzoekers van Carnegie Mellon University bouwden een nieuwe benchmark die meet hoe ver AI-agents kunnen gaan bij het uitbuiten van echte kwetsbaarheden in Google's V8-engine. Mythos leidt met ruime marge op GPT-5.5, maar kost twaalf keer zoveel.
🔗 lees originele bron