TeamTR: Trust-region fine-tuning voor coördinatie van meerdere LLM-agents
Multi-agent LLM-systemen laten veelbelovende resultaten zien bij complex redeneren, maar recente evaluaties tonen aan dat ze vaak slechter presteren dan single-model benchmarks. We signaleren een structureel falen bij het sequentieel fine-tunen van teams met gedeelde context: het bijwerken van één agent verschuift de contextverdeling van het team, en wanneer latere updates worden geëvalueerd op gecachte uitkomsten versterkt deze mismatch zich. We formaliseren dit als de compounderende bezettingsverschuiving en bewijzen dat verouderde data de prestaties ondermijnen.
🔗 lees originele bron