Voorbij modus-zoekende RL: trajectbalans post-training voor diffusie-taalmodellen
Diffusie-taalmodellen zijn een veelbelovend alternatief voor autoregressieve modellen, maar de post-trainingsmethoden daarvoor bouwen grotendeels voort op beloningsmaximaliserende doelstellingen. Wij signaleren een centrale faalmodus in deze setting die we trajectory locking noemen: gesamplede beloningsgestuurde updates concentreren te veel waarschijnlijkheidsmassa op een smalle set denoising-paden, waardoor de dekking van alternatieve correcte oplossingen bij herhaald samplen afneemt. Om dit aan te pakken stellen we TraFL voor.
🔗 lees originele bron