RVPO: risicogevoelige afstemming via variantie-regularisatie

onderzoek 📅 2026-05-08

Huidige critic-loze RLHF-methoden aggregeren multi-objectieve beloningen via een rekenkundig gemiddelde, waardoor ze kwetsbaar zijn voor het negeren van randvoorwaarden: een sterk resultaat op één doelstelling kan kritieke tekortkomingen op andere vlakken (zoals veiligheid of opmaak) numeriek maskeren, waardoor slecht presterende knelpuntbeloningen die essentieel zijn voor betrouwbare multi-objectieve afstemming onder de radar blijven. Wij introduceren Reward-Variance Policy Optimization (RVPO), een risicobewust raamwerk dat variantie tussen beloningen bestraft tijdens

🔗 lees originele bron