Versterkte agent: feedback op basis van inferentietijd voor agenten die gereedschap bellen
Dit artikel werd geaccepteerd tijdens de vijfde workshop over natuurlijke taalgeneratie, evaluatie en statistieken op ACL 2026.
Tool-calling agents worden beoordeeld op gereedschapsselectie, parameternauwkeurigheid en reikwijdteherkenning, maar LLM-trajectbeoordelingen blijven inherent post-hoc. Dergelijke beoordelingen, losgekoppeld van de actieve uitvoeringslus, identificeren fouten die gewoonlijk worden verholpen door middel van prompt-tuning of hertraining, en kunnen de agent in principe niet in realtime corrigeren. Om deze kloof te dichten, verplaatsen we de evaluatie naar de uitvoeringslus op het moment van inferentie: een gespecialiseerde reviewer-agent evalueert...
🔗 lees originele bron