W&B에 로깅한 머신 러닝 실험 중에 GPU 장애, 온도 이상 등 인프라 경고를 확인할 수 있습니다. 지원되는 CoreWeave Kubernetes Service (CKS) 클러스터에서 실행하고, 이 인테그레이션을 활성화하며, 이 페이지의 사전 요구 사항을 충족하면 CoreWeave Mission Control이 W&B run 중에 컴퓨팅 인프라를 모니터링할 수 있습니다.Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-john-wbdocs-2044-rename-serverless-products.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
이 기능은 Preview 상태입니다. 액세스 권한이 필요하면 W&B 담당자에게 문의하세요.
사전 요구 사항
| 사전 요구 사항 | 세부 정보 |
|---|---|
| CoreWeave platform | CoreWeave Kubernetes Service (CKS) 클러스터에서만 사용할 수 있습니다. CoreWeave 베어 메탈 클러스터 또는 CoreWeave Classic에서는 사용할 수 없습니다. CKS에서 SUNK를 통해 실행되는 트레이닝 작업도 이 요구 사항을 충족합니다. |
| W&B Python SDK | 트레이닝 작업의 경우, run을 로깅할 때 wandb 패키지 버전 0.20.1 이상을 사용하세요. |
| W&B Server (Dedicated Cloud or Self-Managed) | W&B Dedicated Cloud 또는 W&B Self-Managed 배포를 사용하는 경우 W&B Server 버전 0.73.0 이상을 사용하세요. 서버가 CoreWeave observability 데이터를 수신할 수 있도록 W&B 앱 파드에서 SERVER_FLAG_ENABLE_CORE_WEAVE_OBSERVABILITY 환경 변수를 설정하세요. |