← terug naar overzicht

GEM: Geometrische entropiemenging voor optimale datacuratie van LLM's

onderzoek 📅 2026-05-27
De effectiviteit van LLM pre-training hangt steeds meer af van datasamenstelling dan van pure hoeveelheid. Optimale menging wordt echter belemmerd door categorisatiegebreken: menselijke taxonomieën lijden onder ontologische verkeerde afstemming, en Euclidische clustering schiet tekort bij embedding-anisotropie. Onderzoekers introduceren GEM (Geometric Entropy Mixing), een raamwerk dat datacuratie herformuleert als een variationeel probleem op de hypersfeer, aangevuld met een mengbalans-regularisator.

🔗 lees originele bron