Van demonstraties naar beloningen: testtijd-promptoptimalisatie voor VLM-beloningsmodellen
Reinforcement learning vertrouwt op nauwkeurige beloningsfuncties, die vaak handmatig worden samengesteld of zelfs volledig ontbreken in toepassingen in de echte wereld, zoals robotica. Recent onderzoek heeft de zero-shot redeneercapaciteiten van voorgetrainde Vision-Language Models (VLM's) verkend als beloningsmodellen. Zonder zorgvuldige prompt-engineering leveren deze benaderingen echter vaak suboptimale beloningen op, waarbij fout-positieve voorspellingen de kwaliteit van het downstream-beleid ernstig kunnen verslechteren.
🔗 lees originele bron