Microsoft Research's Lens bewijst dat gedetailleerde bijschriften meer uitmaken dan ruwe schaal voor het trainen van efficiënte beeldgeneratoren
Microsoft Research presenteert Lens, een tekst-naar-afbeelding-model met slechts 3,8 miljard parameters dat op benchmarks kan wedijveren met veel grotere concurrenten, tegen een fractie van de trainingskosten. Het geheime ingrediënt: 800 miljoen gedetailleerde beeldbijschriften gegenereerd door GPT-4.1 in plaats van vage web-alt-tekst. Code en gewichten zijn openbaar beschikbaar onder een open-source licentie.
🔗 lees originele bron