Nieuwe wiskundebenchmark onthult dat AI-modellen vol overtuiging problemen oplossen die helemaal geen oplossing hebben
Een consortium van 64 wiskundigen bouwde SOOHAK, een nieuwe AI-benchmark met 439 handgeschreven opgaven, waarvan er 99 bewust onoplosbaar zijn. Google's Gemini 3 Pro voert de ranglijst aan op onderzoeksniveau met 30 procent. Maar geen enkel model haalt de 50 procent bij het herkennen van onoplosbare opgaven. Meer rekenkracht maakt modellen beter in oplossen. Het maakt ze niet beter in toegeven dat een probleem geen antwoord heeft.
🔗 lees originele bron