Elmes*: Geautomatiseerde constructie van fijnmazige evaluatierubrieken voor large language models in long-tail onderwijsscenario's
arXiv:2606.06547v1 – Aankondigingstype: nieuw. Samenvatting: Het evalueren van grote taalmodellen voor onderwijs vraagt om het meten van hoe modellen lesgeven, niet alleen van wat ze weten. Bestaande benchmarks leggen de nadruk op domein-algemene correctheid of vertrouwen op handmatig opgestelde rubrieken die slecht schalen naar gespecialiseerde pedagogische scenario's. We introduceren Elmes*, een end-to-end raamwerk voor het construeren, verfijnen en toepassen van fijnmazige scenariospecifieke rubrieken, aangedreven door een declaratieve multi-agent engine voor de lerende rol.
🔗 lees originele bron