Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://wb-21fd5541-john-wbdocs-2044-rename-serverless-products.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Il arrive que les modèles mettent un certain temps à générer une réponse. Définir l’option stream sur true vous permet de recevoir la réponse sous forme d’un flux de fragments, afin d’afficher les résultats de manière incrémentielle au lieu d’attendre que la réponse complète soit générée. La sortie en streaming est prise en charge pour tous les modèles hébergés. Nous encourageons tout particulièrement son utilisation avec les modèles de raisonnement, car les requêtes sans streaming peuvent expirer si le modèle réfléchit trop longtemps avant de commencer à produire une sortie.
import openai

client = openai.OpenAI(
    base_url='https://api.inference.wandb.ai/v1',
    api_key="<your-api-key>",  # Créez une clé API sur https://wandb.ai/settings
)

stream = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[
        {"role": "user", "content": "Tell me a rambling joke"}
    ],
    stream=True,
)

for chunk in stream:
    if chunk.choices:
        print(chunk.choices[0].delta.content or "", end="", flush=True)
    else:
        print(chunk) # Afficher l'objet CompletionUsage