Microsoft Research's Lens bewijst dat gedetailleerde bijschriften meer uitmaken dan ruwe schaal voor het trainen van efficiënte beeldgeneratoren

analyse 📅 2026-06-08

Microsoft Research presenteert Lens, een tekst-naar-afbeelding-model met slechts 3,8 miljard parameters dat op benchmarks kan wedijveren met veel grotere concurrenten, tegen een fractie van de trainingskosten. Het geheime ingrediënt: 800 miljoen gedetailleerde beeldbijschriften gegenereerd door GPT-4.1 in plaats van vage web-alt-tekst. Code en gewichten zijn openbaar beschikbaar onder een open-source licentie.

🔗 lees originele bron