Il existe deux raisons fréquentes pour lesquelles l’entraînement se bloque lorsque vous utilisez W&B avec l’entraînement distribué :Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-john-wbdocs-2044-rename-serverless-products.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
- Blocage au début de l’entraînement : le multiprocessing de W&B peut interférer avec celui des frameworks d’entraînement distribué.
- Blocage à la fin de l’entraînement : le processus W&B ne sait pas à quel moment il doit s’arrêter.
Corriger le blocage au démarrage
0.13.0 du SDK W&B. Si vous utilisez une version antérieure, mettez votre SDK à niveau :
0.12.5 à 0.12.x du SDK W&B, activez explicitement W&B Service :
0.12.4 et les versions antérieures, définissez la variable d’environnement WANDB_START_METHOD :
Corriger le blocage en fin d’exécution
wandb.finish() à la fin de votre script d’entraînement pour indiquer à W&B que l’exécution est terminée :
Experiments Run Crashes