Latente cacheflow: model-naar-modelcommunicatie zonder tekst

onderzoek 📅 2026-05-25

LLM-agenten communiceren tegenwoordig via tekst, wat aanzienlijke vertraging en informatieverlies met zich meebrengt doordat de status van het zendermodel autoregessief gedecodeerd moet worden en vervolgens bij het ontvangende model opnieuw gecodeerd. Recent werk zoals Cache-to-Cache (C2C; Fu et al., 2026) probeert KV-caches uit te wisselen door adapters te trainen die KV-matrices van de zender vertalen naar het ontvangende model. Deze adapters zijn echter groot en duur om te trainen, en vertalen alleen individuele tokens, wat beperkingen oplevert.

🔗 lees originele bron