Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-john-wbdocs-2044-rename-serverless-products.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
W&B Inference
- Développer des applications et des agents d’IA sans vous inscrire auprès d’un fournisseur d’hébergement ni héberger vous-même un modèle.
- Essayer les modèles pris en charge dans le Playground de W&B Weave.
| Modèle | ID du modèle (pour l’API) | Type(s) | Fenêtre de contexte | Paramètres | Description |
|---|---|---|---|---|---|
| DeepSeek R1-0528 | deepseek-ai/DeepSeek-R1-0528 | Texte | 161K | 37B - 680B (Actifs - Total) | Optimisé pour les tâches de raisonnement précis, notamment le code complexe, les mathématiques et l’analyse de documents structurés. |
| DeepSeek V3-0324 | deepseek-ai/DeepSeek-V3-0324 | Texte | 161K | 37B - 680B (Actifs - Total) | Modèle Mixture-of-Experts robuste, conçu pour le traitement du langage complexe et l’analyse approfondie de documents. |
| Llama 3.1 8B | meta-llama/Llama-3.1-8B-Instruct | Texte | 128K | 8B (Total) | Modèle conversationnel efficace, optimisé pour des interactions multilingues rapides de type chatbot. |
| Llama 3.3 70B | meta-llama/Llama-3.3-70B-Instruct | Texte | 128K | 70B (Total) | Modèle multilingue excellent pour les tâches conversationnelles, le suivi précis des instructions et le code. |
| Llama 4 Scout | meta-llama/Llama-4-Scout-17B-16E-Instruct | Texte, Vision | 64K | 17B - 109B (Actifs - Total) | Modèle multimodal intégrant la compréhension du texte et des images, idéal pour les tâches visuelles et l’analyse combinée. |
| Phi 4 Mini | microsoft/Phi-4-mini-instruct | Texte | 128K | 3.8B (Actifs - Total) | Modèle compact et efficace, idéal pour fournir des réponses rapides dans des environnements aux ressources limitées. |
- Prérequis
- Spécification de l’API
- Exemples d’utilisation
- UI
- Informations d’utilisation et limites
- Erreurs d’API
Prérequis
- Un compte W&B. Inscrivez-vous ici.
- Une clé API W&B. Créez une clé API dans les Paramètres utilisateur.
- Un projet W&B.
- Si vous utilisez le service Inference via Python, voir Prérequis supplémentaires pour utiliser l’API via Python.
Prérequis supplémentaires pour utiliser l’API via Python
openai et weave dans votre environnement local :
La bibliothèque
weave n’est requise que si vous utilisez Weave pour tracer vos applications LLM. Pour savoir comment prendre en main Weave, voir le Démarrage rapide de Weave.Pour des exemples d’utilisation montrant comment utiliser le service W&B Inference avec Weave, voir les exemples d’utilisation de l’API.Spécification de l’API
Endpoint
Méthodes disponibles
Complétions de chat
/chat/completions, qui prend en charge les formats de requête compatibles avec OpenAI pour envoyer des messages à un modèle pris en charge et obtenir une complétion. Pour des exemples d’utilisation du service W&B Inference avec Weave, voir les exemples d’utilisation de l’API.
Pour créer une complétion de chat, vous aurez besoin de :
- L’URL de base du service W&B Inference
https://api.inference.wandb.ai/v1 - Votre clé API W&B
<your-api-key> - Les noms de votre entité et de votre projet W&B
<your-team>/<your-project> - L’ID du modèle que vous souhaitez utiliser, parmi :
meta-llama/Llama-3.1-8B-Instructdeepseek-ai/DeepSeek-V3-0324meta-llama/Llama-3.3-70B-Instructdeepseek-ai/DeepSeek-R1-0528meta-llama/Llama-4-Scout-17B-16E-Instructmicrosoft/Phi-4-mini-instruct
- Bash
- Python
Lister les modèles pris en charge
- Bash
- Python
Exemples d’utilisation
- Exemple de base : tracer Llama 3.1 8B avec Weave
- Exemple avancé : utiliser les Évaluations et les classements de Weave avec le service d’inférence
Exemple de base : tracer Llama 3.1 8B avec Weave
- Vous définissez une fonction décorée avec
@weave.op(),run_chat, qui effectue une requête de Chat Completion à l’aide du client compatible OpenAI. - Vos traces sont enregistrées et associées à votre entité W&B ainsi qu’à votre projet
project="<your-team>/<your-project> - La fonction est automatiquement tracée par Weave, de sorte que ses entrées, ses sorties, sa latence et ses métadonnées (comme l’ID du modèle) sont enregistrées.
- Le résultat est affiché dans le terminal, et la trace apparaît dans votre onglet Traces sur https://wandb.ai, sous le projet spécifié.
https://wandb.ai/<your-team>/<your-project>/r/call/01977f8f-839d-7dda-b0c2-27292ef0e04g), ou :
- Accédez à https://wandb.ai.
- Sélectionnez l’onglet Traces pour afficher vos traces Weave.

Exemple avancé : utilisez les évaluations et les classements de Weave avec le service d’inférence
- Accédez à l’onglet Traces pour consulter vos traces
- Accédez à l’onglet Evals pour consulter les évaluations de votre modèle
- Accédez à l’onglet Leaders pour consulter le classement généré


UI
Accéder au service d’Inférence
Lien direct
Depuis l’onglet Inférence
- Accédez à votre compte W&B sur https://wandb.ai/.
- Dans la barre latérale gauche, sélectionnez Inférence. Une page présentant les modèles disponibles et leurs informations s’affiche.

Depuis l’onglet Playground
- Dans la barre latérale gauche, sélectionnez Playground. L’interface de chat du Playground s’affiche.
- Dans la liste déroulante LLM, survolez W&B Inference. Une liste déroulante affichant les modèles W&B Inference disponibles apparaît à droite.
- Dans la liste déroulante des modèles W&B Inference, vous pouvez :
- Cliquer sur le nom de n’importe quel modèle disponible pour l’essayer dans le Playground.
- Comparer un ou plusieurs modèles dans le Playground

Essayer un modèle dans le Playground
- Personnaliser les paramètres et réglages du modèle
- Ajouter, réessayer, modifier et supprimer des messages
- Enregistrer et réutiliser un modèle avec des réglages personnalisés
- Comparer plusieurs modèles

Comparer plusieurs modèles
- Accéder à la vue Compare depuis l’onglet Inférence
- Accéder à la vue Compare depuis l’onglet Playground
Accéder à la vue Compare depuis l’onglet Inférence
- Dans la barre latérale gauche, sélectionnez Inférence. Une page affichant les modèles disponibles et les informations sur les modèles s’ouvre.
- Pour sélectionner les modèles à comparer, cliquez n’importe où sur une carte de modèle (sauf sur le nom du modèle). La bordure de la carte de modèle est surlignée en bleu pour indiquer la sélection.
- Répétez l’étape 2 pour chaque modèle que vous souhaitez comparer.
- Sur l’une des cartes sélectionnées, cliquez sur le bouton Comparer N modèles dans le Playground (
Ncorrespond au nombre de modèles que vous comparez. Par exemple, lorsque 3 modèles sont sélectionnés, le bouton s’affiche sous la forme Comparer 3 modèles dans le Playground). La vue de comparaison s’ouvre.

Accéder à la vue Compare depuis l’onglet Playground
- Dans la barre latérale gauche, sélectionnez Playground. L’interface de chat du Playground s’affiche.
- Dans la liste déroulante LLM, survolez W&B Inference. Une liste déroulante des modèles W&B Inference disponibles s’affiche à droite.
- Dans la liste déroulante, sélectionnez Compare. L’onglet Inférence s’affiche.
- Pour sélectionner des modèles à comparer, cliquez n’importe où sur une carte de modèle (sauf sur le nom du modèle). La bordure de la carte de modèle se surligne en bleu pour indiquer la sélection.
- Répétez l’étape 4 pour chaque modèle que vous souhaitez comparer.
- Dans l’une des cartes sélectionnées, cliquez sur le bouton Comparer N modèles dans le Playground (
Ncorrespond au nombre de modèles que vous comparez. Par exemple, lorsque 3 modèles sont sélectionnés, le bouton s’affiche sous la forme Comparer 3 modèles dans le Playground). La vue de comparaison s’ouvre.
Voir les informations de facturation et d’utilisation
- Dans l’interface W&B, accédez à la page Billing de W&B.
- Dans l’angle inférieur droit, la carte d’informations de facturation d’Inférence s’affiche. Depuis cette carte, vous pouvez :
- Cliquer sur le bouton View usage dans la carte d’informations de facturation d’Inférence pour consulter votre utilisation au fil du temps.
- Si vous utilisez un plan payant, consulter vos prochains frais d’inférence.
Informations d’utilisation et limites
Restrictions géographiques
Limites de concurrence
- Prévenir les abus et protéger la stabilité de l’API
- Garantir l’accès à tous les utilisateurs
- Gérer efficacement la charge de l’infrastructure
429 Concurrency limit reached for requests. Pour résoudre cette erreur, réduisez le nombre de requêtes simultanées.
Tarification
Erreurs d’API
| Code d’erreur | Message | Cause | Solution |
|---|---|---|---|
| 401 | Authentification invalide | Identifiants d’authentification invalides, ou entité et/ou nom du projet W&B incorrects. | Assurez-vous d’utiliser la bonne clé API et/ou que le nom et l’entité de votre projet W&B sont corrects. |
| 403 | Pays, région ou territoire non pris en charge | Accès à l’API depuis un emplacement non pris en charge. | Veuillez consulter Restrictions géographiques |
| 429 | Limite de concurrence atteinte pour les requêtes | Trop de requêtes simultanées. | Réduisez le nombre de requêtes simultanées. |
| 429 | Vous avez dépassé votre quota actuel, veuillez vérifier les détails du forfait et de la facturation | Plus de crédits ou plafond mensuel de dépenses atteint. | Achetez plus de crédits ou augmentez vos limites. |
| 500 | Le serveur a rencontré une erreur lors du traitement de votre requête | Erreur interne du serveur. | Réessayez après une brève attente et contactez l’assistance si le problème persiste. |
| 503 | Le moteur est actuellement surchargé, veuillez réessayer plus tard | Le serveur connaît un trafic élevé. | Réessayez votre requête après un court délai. |