ERRORQUAKE: Ernstige verdelingen van de ernst van fouten in grote taalmodellen met open gewicht
Bij gelijke nauwkeurigheid verschillen open-weight LLM's aanzienlijk in de vorm van hun fout-ernstverdeling – een verschil dat onzichtbaar blijft voor het scalaire foutpercentage. Hallucinatiebenchmarks rapporteren één enkel foutenaantal en behandelen alle fouten als gelijkwaardig, terwijl een verkeerde datum en een verzonnen gerechtelijke uitspraak ordes van grootte verschillen. We introduceren Errorquake-10k, een benchmark van 10.000 vragen die elke respons scoort op een continue schaal van 0–4.
🔗 lees originele bron