State commitment learning: taalmodellen trainen om berekeningen van geheugen te onderscheiden
Redenerende taalmodellen maken geen onderscheid tussen tokens die voor berekening worden gebruikt en tokens die een blijvende toestand vormen: eenmaal gegenereerd blijven alle verborgen gedachten in de context staan en beïnvloeden ze toekomstige voorspellingen. Daardoor kan later redeneren afhankelijk zijn van mislukte pogingen, doodlopende wegen en privé-krabbels waar niet veilig op vertrouwd mag worden. We herformuleren dit fenomeen als een nieuw trainingsdoel: state commitment learning.
🔗 lees originele bron