現在パブリックプレビュー中の Serverless RL は、開発者が LLM をポストトレーニングして新しい振る舞いを学習させ、マルチターンのエージェントタスクの実行における信頼性向上、速度向上、コスト削減を実現できるよう支援します。W&B は、環境設定の自由度を保ちながら、トレーニング用インフラストラクチャー (CoreWeave 上) をプロビジョニングします。Serverless RL を使うと、数十台の GPU まで弾力的に自動スケールするマネージドトレーニングクラスターをすぐに利用できます。RL ワークフローを推論フェーズとトレーニングフェーズに分け、それらを複数のジョブにまたがって多重化することで、Serverless RL は GPU 使用率を高め、トレーニング時間とコストを削減します。 Serverless RL は、次のようなタスクに最適です。Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-john-wbdocs-2044-rename-serverless-products.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
- 音声エージェント
- ディープリサーチアシスタント
- オンプレミスモデル
- コンテンツマーケティング分析エージェント
なぜ Serverless RL なのか?
- トレーニングコストの削減: 共有インフラストラクチャーを多くのユーザーで多重利用し、ジョブごとのセットアップを省略し、トレーニングしていない間の GPU コストを 0 まで抑えることで、Serverless RL はトレーニングコストを大幅に削減します。
- トレーニング時間の短縮: 推論リクエストを複数の GPU に分散し、必要なときにすぐトレーニング用インフラストラクチャーをプロビジョニングすることで、Serverless RL はトレーニングジョブを高速化し、より素早い反復を可能にします。
- 自動デプロイ: Serverless RL は、トレーニングしたすべての checkpoint を自動的にデプロイするため、ホスティング用インフラストラクチャーを手動で設定する必要がありません。トレーニング済みモデルには、ローカル、ステージング、本番環境ですぐにアクセスしてテストできます。
Serverless RL での W&B サービスの使用方法
- Inference: モデルを実行するため
- Models: LoRA アダプターのトレーニング中にパフォーマンスメトリクスをトラッキングするため
- Artifacts: LoRA アダプターを保存し、バージョン管理するため
- Weave (オプション) : トレーニングループの各 step でモデルがどのように応答するかを把握するため