RVPO: risicogevoelige afstemming via variantie-regularisatie
Huidige critic-loze RLHF-methoden aggregeren multi-objectieve beloningen via een rekenkundig gemiddelde, waardoor ze kwetsbaar zijn voor het negeren van randvoorwaarden: een sterk resultaat op één doelstelling kan kritieke tekortkomingen op andere vlakken (zoals veiligheid of opmaak) numeriek maskeren, waardoor slecht presterende knelpuntbeloningen die essentieel zijn voor betrouwbare multi-objectieve afstemming onder de radar blijven. Wij introduceren Reward-Variance Policy Optimization (RVPO), een risicobewust raamwerk dat variantie tussen beloningen bestraft tijdens
🔗 lees originele bron