Research-First Coding Agents verslaan Code-Only Agents
SkyPilot demonstreerde een coding agent die academische papers en concurrerende projecten leest vóór het aanraken van code, toegepast op het optimaliseren van llama.cpp CPU-inference. De resultaten...
SkyPilot demonstreerde een coding agent die academische papers en concurrerende projecten leest vóór het aanraken van code, toegepast op het optimaliseren van llama.cpp CPU-inference. De resultaten waren concreet: 15% snellere tekstgeneratie op Intel Xeon en 5% op ARM Graviton3, bereikt voor circa $29 in compute en API-kosten over drie uur. Zonder de research-fase produceerde de agent verwaarloosbare gains - het optimaliseerde voor compute terwijl de echte bottleneck memory bandwidth was, iets dat alleen de literatuurstudie aan het licht bracht. De vijf optimalisaties omvatten softmax fusion, RMS norm fusion en flash attention tile merging, getrokken uit het bestuderen van FlashAttention-papers en hoe CUDA en Metal backends vergelijkbare problemen al oplosten. Naarmate coding agents rijpen, wordt het verschil tussen agents die gewoon code schrijven en agents die eerst lezen een duidelijke prestatie-differentiator.

