Statistische inferentie en kwaliteitsmaten voor KV-cachekwantisaties geïnspireerd door TurboQuant
arXiv:2605.08114v1 Aankondigingstype: nieuw Samenvatting: We analyseren drie KV-cache-kwantiseringsschema's met een redelijk budget: \textbf{KV} (scalaire MSE-basislijn), \textbf{KQV} (WHT + MSE op $K$; WHT + MSE + QJL op $V$) en \textbf{QKQV} (WHT + MSE + QJL op beide). Vertrekkend van de bètaverdeling op de hypersfeer, traceren we hoe QJL op $K$ de interne productvariantie opblaast met $\pi/2$, wat softmax niet-lineair versterkt via de ongelijkheid van Jensen, en presenteren we statistische gevolgtrekkingen en informatiemetrieken.
🔗 lees originele bron