Van demonstraties naar beloningen: testtijd-promptoptimalisatie voor VLM-beloningsmodellen

onderzoek 📅 2026-06-02

Reinforcement learning vertrouwt op nauwkeurige beloningsfuncties, die vaak handmatig worden samengesteld of zelfs volledig ontbreken in toepassingen in de echte wereld, zoals robotica. Recent onderzoek heeft de zero-shot redeneercapaciteiten van voorgetrainde Vision-Language Models (VLM's) verkend als beloningsmodellen. Zonder zorgvuldige prompt-engineering leveren deze benaderingen echter vaak suboptimale beloningen op, waarbij fout-positieve voorspellingen de kwaliteit van het downstream-beleid ernstig kunnen verslechteren.

🔗 lees originele bron