Genereren, filteren, controleren, herhalen: een uitgebreid overzicht van rollout-strategieën voor reinforcement learning bij LLM's
arXiv:2605.02913v1 Aankondigingstype: nieuw Samenvatting: Reinforcement learning (RL) is een centraal post-trainingsinstrument geworden voor het verbeteren van het redeneervermogen van grote taalmodellen (LLM's). In deze systemen bepaalt de uitrol, het traject dat wordt bemonsterd vanaf de prompt tot aan de beëindiging, inclusief tussenliggende redeneerstappen en optionele tool- of omgevingsinteracties, de gegevens waarvan de optimizer leert, maar het ontwerp van de uitrol wordt vaak te weinig gerapporteerd. Dit onderzoek biedt een optimizer-agnostisch beeld van ro
🔗 lees originele bron