LKV: end-to-end-leren van head-specifieke budgetten en tokenselectie voor KV-cache-evictie in LLM's
arXiv:2605.06676v1 — Abstract: Inferentie met lange context in Large Language Models (LLMs) loopt vast door de lineaire groei van het Key-Value (KV) cachegeheugen. Bestaande KV-cachecompressieparadigma's worden fundamenteel beperkt door heuristieken: heuristische budgettering vertrouwt op statistische aannames in plaats van taakdoelen, wat leidt tot verkeerde toewijzing van middelen, terwijl heuristische selectie steunt op gekoppelde query-key-interacties of statische inductieve biases (zoals attention sinks). Om deze beperking te doorbreken…
🔗 lees originele bron