BitsMoE: Efficiënte spectrale energiegestuurde bit-toewijzing voor MoE LLM-kwantisatie

onderzoek 📅 2026-06-02

Mixture-of-Experts (MoE) grote taalmodellen verlagen de rekenkosten per token via schaarse expertactivatie, maar het gebruik ervan blijft geheugenintensief omdat alle expertgewichten in het geheugen aanwezig moeten blijven. Bestaande MoE-compressiemethoden schieten tekort in het ultra-laag-bitregime: pruning verwijdert modelcapaciteit onomkeerbaar, terwijl grofkorrelige kwantisering er niet in slaagt bits toe te wijzen op basis van uiteenlopend expert- en gewichtsrichtingsbelang.

🔗 lees originele bron