Consultez les alertes d’infrastructure, comme les pannes de GPU, les violations thermiques, etc., pendant les expériences de machine learning que vous consignez dans W&B. Lorsque vous exécutez vos workloads sur un cluster CoreWeave Kubernetes Service (CKS) pris en charge, activez cette intégration et remplissez les prérequis de cette page pour permettre à CoreWeave Mission Control de surveiller votre infrastructure de calcul pendant un run W&B.Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-john-wbdocs-2044-rename-serverless-products.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
Cette fonctionnalité est en préversion. Contactez votre représentant W&B pour obtenir l’accès.
Prérequis
| Prérequis | Détails |
|---|---|
| Plateforme CoreWeave | Disponible uniquement sur les clusters CoreWeave Kubernetes Service (CKS). Non disponible sur les clusters bare metal CoreWeave ni sur CoreWeave Classic. Les tâches d’entraînement exécutées via SUNK sur CKS répondent également à cette exigence. |
| SDK Python W&B | Pour les tâches d’entraînement, utilisez le package wandb version 0.20.1 ou ultérieure lorsque vous journalisez un run. |
| serveur W&B (Cloud dédié ou Autogéré) | Si vous utilisez un déploiement Cloud dédié de W&B ou W&B Autogéré, utilisez le serveur W&B version 0.73.0 ou ultérieure. Définissez la variable d’environnement SERVER_FLAG_ENABLE_CORE_WEAVE_OBSERVABILITY sur le pod d’application W&B afin que le serveur puisse accepter les données d’observabilité CoreWeave. |