Sparse prefixcaching voor hybride en terugkerende LLM-serving

onderzoek 📅 2026-05-08

arXiv:2605.05219v1 Aankondigingstype: nieuw Samenvatting: Caching van voorvoegsels is een belangrijke latentie-optimalisatie voor autoregressieve LLM-service, maar bestaande systemen gaan uit van intensief hergebruik van sleutels/waarden per token. State-space-modellen veranderen de structuur van het probleem: een terugkerende laag kan hervatten vanuit een enkele opgeslagen status in plaats van dat de hele tokengeschiedenis nodig is. Deze asymmetrie opent een nieuw ontwerppunt tussen geen hergebruik en dichte caching: sla exacte terugkerende toestanden op op een schaars aantal controlepuntposities en, op een

🔗 lees originele bron