De evaluatieblinde vlek: een stereologische theorie van benchmarkdekking voor grote taalmodellen

onderzoek 📅 2026-06-05

We presenteren een stereologische theorie voor de dekking van LLM-benchmarks. Voor elke testsuite met effectieve dimensionaliteit d_eff is de zichtbare Hausdorff-afstand tussen twee convexe capaciteitsprofielen die consistent zijn met dezelfde scores begrensd door epsilon + C R m^(-1/(d_eff-1)), met een bijpassende Lipschitz-ondergrens. Empirisch blijken drie onafhankelijke ranglijsten allemaal een d_eff in het bereik [2,86, 4,80] te hebben op hun competitieve front.

🔗 lees originele bron