Overheidsbelang in OpenAI 🇺🇸, Google-computedeal 🚀, lancering Microsoft Scout 🤖

samenvatting 📅 2026-06-08

Het evalueren van grote taalmodellen voor het onderwijs vereist dat je meet hoe modellen lesgeven, niet alleen wat ze weten. Bestaande benchmarks leggen de nadruk op domein-algemene correctheid of leunen op handmatig opgestelde rubrieken die slecht schalen naar uiteenlopende pedagogische scenario's. Wij introduceren Elmes*, een end-to-end raamwerk voor het bouwen, verfijnen en toepassen van fijnmazige scenariospecifieke rubrieken. Elmes* combineert een declaratieve multi-agent engine voor het

🔗 lees originele bron