UCCI: Gekalibreerde onzekerheid voor kostenoptimale LLM-cascaderouting
LLM-cascades en modelroutering beloven lagere inferentiekosten door eenvoudige vragen naar een klein model te sturen en moeilijke door te schakelen naar een groot model, maar de meeste routers werken met ongekalibreerde betrouwbaarheidsscores en vereisen per use-case handmatig ingestelde drempels. UCCI pakt dit aan met een kalibratie-eerst-router die token-niveau onzekerheid via isotone regressie omzet in een foutkans per query, waarna de escalatiedrempel automatisch wordt gekozen op basis van minimale kosten onder een beperking.
🔗 lees originele bron