Trajectory toont Multi-LoRA training: 2,81× sneller experimenteren met continual learning
Continual learning klinkt vaak als toekomstmuziek: modellen die elk uur een beetje beter worden. Maar het echte knelpunt zit niet alleen in algoritmes—het zit in infrastructuur. In een nieuwe field note laat Trajectory zien hoe een ‘always-hot’ trainingsservice met multi-LoRA meerdere RL-experimenten tegelijk kan draaien, met volgens het team 2,81× hogere end-to-end experiment-throughput dan een klassieke single-tenant aanpak. (Trajectory)
Het onderwerp raakt aan een breder thema dat we vaker zien op AI-Feiten: de strijd om compute en iteratiesnelheid—van mega-investeringen in AI-datacenters tot de vraag hoe teams hun fine-tuning en agent-workflows beheersbaar houden. En ja: ook dit gaat uiteindelijk over betrouwbaarheid en controle, net als bij LoRA-adapters voor model-audits.
Wat is multi-LoRA training (en waarom is het nieuws)?
LoRA (Low-Rank Adaptation) is een techniek waarbij je het basismodel “bevriest” en alleen kleine adapter-gewichten traint. Trajectory gebruikt dat idee om een stap verder te gaan: niet één experiment per GPU-cluster, maar meerdere experimenten parallel op dezelfde basisweights, elk met een eigen LoRA-adapter. Daardoor kun je sneller “early signal” krijgen over een hele sweep van experimenten, in plaats van wachten tot één run klaar is. (Trajectory)
De technische truc: adapters ‘hot’ in vLLM, met SGMV-kernels
Een belangrijk deel van de winst zit bij inference/rollouts. In hun architectuur blijven meerdere adapters tegelijk in GPU-geheugen geladen, zodat batches tokens uit verschillende adapters kunnen mixen. Trajectory verwijst daarbij naar een decode-kernel (SGMV) die het per-adapter werk kan fuseren, zodat meerdere LoRA’s efficiënter één decode-stap delen. (Zie ook het gelinkte paper bij Trajectory: arXiv:2310.18547.)
Belangrijk detail: de training zelf wisselt per stap één adapter naar de GPU en zet de rest tijdelijk in (pinned) CPU memory. Dat betekent dat de ‘multi’ vooral aan de serving/inference-kant maximaal rendeert, en de trainer-kant nog niet volledig meeschalen kan. (Trajectory)
Open source instap: SkyRL als bouwsteen
Trajectory positioneert het niet als een gesloten black box. In de ‘Getting Started’-sectie verwijzen ze naar open-source componenten, waaronder SkyRL, om multi-LoRA RL-training op te zetten op (bijvoorbeeld) een 8× H100/H200-configuratie. Dat sluit aan bij de trend waarin teams sneller productie-achtige agentic workloads willen finetunen, zonder dat elke run opnieuw een volledige “cold start” van 20–30 minuten nodig heeft.
Wat betekent dit (praktisch) voor teams?
Als je snel itereren belangrijker is dan de kortste latency per individuele run, dan is dit interessant. Trajectory laat ook expliciet de trade-off zien: hogere throughput kan betekenen dat de eerste run later klaar is dan in het seriële baseline-scenario. Het verhaal is dus niet “alles wordt sneller”, maar “je cluster wordt beter benut en je experiment-sweep rondt eerder af”.
Voor organisaties die hun AI-werkstromen in productie willen trekken—denk aan agentic workflows, tool-calls en feedback loops—past dit in dezelfde beweging als enterprise-integraties (zoals Gemini-output delen via Drive) en governance-kaders (zoals frontier governance richting EU AI Act): het gaat niet alleen om een “slimmer model”, maar om het hele systeem eromheen.
Ook opvallend: dit nieuws werd breder opgepikt in de AI-media, waaronder MarkTechPost, dat de 2,81× throughput-claim en de ‘concurrent multi-LoRA training stack’ samenvat. (MarkTechPost)
Conclusie: ‘continual learning’ vraagt om “continual infra”
De kernboodschap van Trajectory is helder: als je modellen vaker dan eens per paar maanden wilt verbeteren, moet training minder lijken op losse batchjobs en meer op een service die altijd draait. Multi-LoRA is daarbij een slimme manier om idle GPU-tijd (bijvoorbeeld tijdens tool-calls) op te vullen met parallelle experimenten. Dat is geen magische oplossing—maar wel een concreet infrastructuurrecept dat continual learning een stap dichterbij brengt.
