Voorbij modus-zoekende RL: trajectbalans post-training voor diffusie-taalmodellen

onderzoek 📅 2026-05-15

Diffusie-taalmodellen zijn een veelbelovend alternatief voor autoregressieve modellen, maar de post-trainingsmethoden daarvoor bouwen grotendeels voort op beloningsmaximaliserende doelstellingen. Wij signaleren een centrale faalmodus in deze setting die we trajectory locking noemen: gesamplede beloningsgestuurde updates concentreren te veel waarschijnlijkheidsmassa op een smalle set denoising-paden, waardoor de dekking van alternatieve correcte oplossingen bij herhaald samplen afneemt. Om dit aan te pakken stellen we TraFL voor.

🔗 lees originele bron