Activer les réponses en streaming

Il arrive que les modèles mettent un certain temps à générer une réponse. Définir l’option stream sur true vous permet de recevoir la réponse sous forme d’un flux de fragments, afin d’afficher les résultats de manière incrémentielle au lieu d’attendre que la réponse complète soit générée. La sortie en streaming est prise en charge pour tous les modèles hébergés. Nous encourageons tout particulièrement son utilisation avec les modèles de raisonnement, car les requêtes sans streaming peuvent expirer si le modèle réfléchit trop longtemps avant de commencer à produire une sortie.

Python
Bash

import openai

client = openai.OpenAI(
    base_url='https://api.inference.wandb.ai/v1',
    api_key="<your-api-key>",  # Créez une clé API sur https://wandb.ai/settings
)

stream = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[
        {"role": "user", "content": "Tell me a rambling joke"}
    ],
    stream=True,
)

for chunk in stream:
    if chunk.choices:
        print(chunk.choices[0].delta.content or "", end="", flush=True)
    else:
        print(chunk) # Afficher l'objet CompletionUsage

curl https://api.inference.wandb.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <your-api-key>" \
  -d '{
    "model": "openai/gpt-oss-120b",
    "messages": [
      { "role": "user", "content": "Tell me a rambling joke" }
    ],
    "stream": true
  }'

Afficher les informations de raisonnement Activer la sortie structurée

⌘I

Paramètres de réponse

Tutoriels

Référence de l’API

Paramètres de réponse

Tutoriels

Référence de l’API

Documentation Index