Serverless RL

Désormais disponible en aperçu public, Serverless RL aide les développeurs à post-entraîner des LLM afin de leur faire acquérir de nouveaux comportements et d’améliorer la fiabilité, la rapidité et les coûts lors de l’exécution de tâches agentiques multi-tours. W&B provisionne pour vous l’infrastructure d’entraînement (sur CoreWeave) tout en vous laissant une totale flexibilité dans la configuration de votre environnement. Serverless RL vous donne un accès immédiat à un cluster d’entraînement géré, capable de s’adapter automatiquement à plusieurs dizaines de GPU. En divisant les flux de travail RL en phases d’inférence et d’entraînement, puis en les multiplexant entre plusieurs jobs, Serverless RL augmente l’utilisation des GPU et réduit le temps d’entraînement ainsi que les coûts. Serverless RL est idéal pour des tâches telles que :

Agents vocaux
Assistants de recherche avancée
Modèles sur site
Agents d’analyse de contenu marketing

Serverless RL entraîne des adaptateurs de bas rang (LoRA) afin de spécialiser un modèle pour la tâche spécifique de votre agent. Cela étend les capacités du modèle original grâce à l’expérience acquise en situation réelle. Les LoRA que vous entraînez sont automatiquement stockés en tant qu’Artifacts dans votre compte W&B et peuvent être enregistrés localement ou chez un tiers à des fins de sauvegarde. Les modèles que vous entraînez avec Serverless RL sont également automatiquement hébergés sur W&B Inférence. Voir le Démarrage rapide d’ART ou le notebook Google Colab pour commencer.

Pourquoi Serverless RL ?

L’apprentissage par renforcement (RL) regroupe un ensemble de techniques d’entraînement puissantes que vous pouvez utiliser dans de nombreux types de configurations d’entraînement, y compris sur des GPU que vous possédez ou louez directement. Serverless RL peut offrir les avantages suivants pour votre post-entraînement RL :

Coûts d’entraînement réduits : En mutualisant une infrastructure partagée entre de nombreux utilisateurs, en évitant le processus de configuration pour chaque job et en ramenant vos coûts GPU à 0 lorsque vous n’entraînez pas activement, Serverless RL réduit considérablement les coûts d’entraînement.
Entraînement plus rapide : En répartissant les requêtes d’inférence sur de nombreux GPU et en provisionnant immédiatement l’infrastructure d’entraînement lorsque vous en avez besoin, Serverless RL accélère vos tâches d’entraînement et vous permet d’itérer plus rapidement.
Déploiement automatique : Serverless RL déploie automatiquement chaque checkpoint que vous entraînez, ce qui évite de configurer manuellement une infrastructure d’hébergement. Les modèles entraînés sont immédiatement accessibles et testables dans des environnements locaux, de staging ou de production.

Comment Serverless RL utilise les services W&B

Serverless RL s’appuie sur une combinaison des composants W&B suivants pour fonctionner :

Inférence : pour exécuter vos modèles
Models : pour suivre les métriques de performance pendant l’entraînement de l’adaptateur LoRA
Artifacts : pour stocker et versionner les adaptateurs LoRA
Weave (facultatif) : pour observer comment le modèle répond à chaque étape de la boucle d’entraînement

Serverless RL est en aperçu public. Pendant cette période, seuls l’utilisation de l’inférence et le stockage des Artifacts vous sont facturés. W&B ne facture pas l’entraînement des adaptateurs pendant la période d’aperçu.

RL sans serveur

SFT sans serveur

Référence de l’API

Pourquoi Serverless RL ?

Comment Serverless RL utilise les services W&B

RL sans serveur

SFT sans serveur

Référence de l’API

Documentation Index

​Pourquoi Serverless RL ?

​Comment Serverless RL utilise les services W&B

Pourquoi Serverless RL ?

Comment Serverless RL utilise les services W&B