Prestatievoorspelling van symbolische en prompt-programma's met behulp van voorbeelden
LLM-prompting wordt breed toegepast voor natuurlijk geformuleerde taken, maar is onbetrouwbaar: het kan slagen op een handvol testgevallen maar falen zodra het echt wordt uitgerold. We bestuderen prestatievoorspelling: gegeven een programma — symbolisch (bijvoorbeeld Python) of een prompt uitgevoerd op een LLM — en een paar voorbeelden uit hetzelfde domein, voorspel hoe het presteert op ongeziene taken uit dat domein. We gebruiken een eenvoudig munt-opgooimodel, waarbij elke geslaagde of mislukte programma-uitvoering wordt behandeld als een Bernoulli-toevalsvariabele.
🔗 lees originele bron