Elmes*: Geautomatiseerde constructie van fijnmazige evaluatierubrieken voor large language models in long-tail onderwijsscenario's

onderzoek 📅 2026-06-08

arXiv:2606.06547v1 – Aankondigingstype: nieuw. Samenvatting: Het evalueren van grote taalmodellen voor onderwijs vraagt om het meten van hoe modellen lesgeven, niet alleen van wat ze weten. Bestaande benchmarks leggen de nadruk op domein-algemene correctheid of vertrouwen op handmatig opgestelde rubrieken die slecht schalen naar gespecialiseerde pedagogische scenario's. We introduceren Elmes*, een end-to-end raamwerk voor het construeren, verfijnen en toepassen van fijnmazige scenariospecifieke rubrieken, aangedreven door een declaratieve multi-agent engine voor de lerende rol.

🔗 lees originele bron