Désormais disponible en aperçu public, Serverless RL aide les développeurs à post-entraîner des LLM afin de leur faire acquérir de nouveaux comportements et d’améliorer la fiabilité, la rapidité et les coûts lors de l’exécution de tâches agentiques multi-tours. W&B provisionne pour vous l’infrastructure d’entraînement (sur CoreWeave) tout en vous laissant une totale flexibilité dans la configuration de votre environnement. Serverless RL vous donne un accès immédiat à un cluster d’entraînement géré, capable de s’adapter automatiquement à plusieurs dizaines de GPU. En divisant les flux de travail RL en phases d’inférence et d’entraînement, puis en les multiplexant entre plusieurs jobs, Serverless RL augmente l’utilisation des GPU et réduit le temps d’entraînement ainsi que les coûts. Serverless RL est idéal pour des tâches telles que :Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-john-wbdocs-2044-rename-serverless-products.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
- Agents vocaux
- Assistants de recherche avancée
- Modèles sur site
- Agents d’analyse de contenu marketing
Pourquoi Serverless RL ?
- Coûts d’entraînement réduits : En mutualisant une infrastructure partagée entre de nombreux utilisateurs, en évitant le processus de configuration pour chaque job et en ramenant vos coûts GPU à 0 lorsque vous n’entraînez pas activement, Serverless RL réduit considérablement les coûts d’entraînement.
- Entraînement plus rapide : En répartissant les requêtes d’inférence sur de nombreux GPU et en provisionnant immédiatement l’infrastructure d’entraînement lorsque vous en avez besoin, Serverless RL accélère vos tâches d’entraînement et vous permet d’itérer plus rapidement.
- Déploiement automatique : Serverless RL déploie automatiquement chaque checkpoint que vous entraînez, ce qui évite de configurer manuellement une infrastructure d’hébergement. Les modèles entraînés sont immédiatement accessibles et testables dans des environnements locaux, de staging ou de production.
Comment Serverless RL utilise les services W&B
- Inférence : pour exécuter vos modèles
- Models : pour suivre les métriques de performance pendant l’entraînement de l’adaptateur LoRA
- Artifacts : pour stocker et versionner les adaptateurs LoRA
- Weave (facultatif) : pour observer comment le modèle répond à chaque étape de la boucle d’entraînement