추론 정보 보기

Google’s Gemma 4와 같은 추론 모델은 최종 답변과 함께 추론 단계에 대한 정보도 반환합니다. 이 페이지에서는 W&B Inference에서 추론 가능한 모델을 파악하는 방법, 응답에서 추론 출력이 어디에 표시되는지, 그리고 이 기능을 전환할 수 있는 모델에서 추론을 켜거나 끄는 방법을 설명합니다. 모델이 추론을 지원하는지 확인하려면 다음 지원되는 모델 표 또는 UI의 해당 카탈로그 페이지에 있는 Supported Features 섹션을 확인하세요. 추론 정보는 응답의 reasoning 필드에 포함됩니다. 추론 모델이 아닌 경우 응답에서 이 필드의 값은 null입니다.

추론을 지원하는 모델

다음 표에는 추론 출력이 반환되는 W&B Inference 모델이 나와 있습니다. 지원되는 각 모델은 추론을 항상 포함할 수도 있고, 기본적으로 추론이 비활성화되거나 활성화될 수도 있습니다.

모델 ID(API 사용 시)	추론 지원
`google/gemma-4-31B-it`	기본적으로 활성화됨
`MiniMaxAI/MiniMax-M2.5`	항상 켜짐
`moonshotai/Kimi-K2.5`	항상 켜짐
`nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8`	기본적으로 활성화됨
`openai/gpt-oss-120b`	항상 켜짐
`openai/gpt-oss-20b`	항상 켜짐
`Qwen/Qwen3.5-35B-A3B`	기본적으로 활성화됨
`Qwen/Qwen3-235B-A22B-Thinking-2507`	항상 켜짐
`zai-org/GLM-5.1`	기본적으로 활성화됨

`항상 켜짐` 추론이 포함된 모델

모델이 앞의 지원되는 모델 표에서 항상 켜짐으로 표시되어 있으면, 추론이 항상 포함되며 이를 비활성화할 수 없습니다.

추론 비활성화

모델이 앞선 지원되는 모델 표에서 기본적으로 활성화됨로 표시되어 있다면, 토큰 사용량을 줄이거나 응답을 더 단순하게 만들기 위해 추론을 비활성화할 수 있습니다. 요청에서 추론을 사용하지 않으려면 chat_template_kwargs에서 enable_thinking 플래그를 False(Python) 또는 false(Bash)로 설정하세요.

Python
Bash

import openai

client = openai.OpenAI(
    base_url='https://api.inference.wandb.ai/v1',
    api_key="[YOUR-API-KEY]",  # https://wandb.ai/settings 에서 API 키를 생성하세요
)

response = client.chat.completions.create(
    model="google/gemma-4-31B-it",
    messages=[
        {"role": "user", "content": "3.11 and 3.8, which is greater?"}
    ],
    extra_body={
        "chat_template_kwargs": {
            "enable_thinking": False
        }
    },
)

curl https://api.inference.wandb.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer [YOUR-API-KEY]" \
  -d '{
    "model": "google/gemma-4-31B-it",
    "messages": [
      { "role": "user", "content": "3.11 and 3.8, which is greater?" }
    ],
    "chat_template_kwargs": {"enable_thinking": false}
  }'

추론 활성화

앞선 지원되는 모델 표에서 모델이 Disabled by default로 표시된 경우, 앞선 코드 스니펫에서 enable_thinking 플래그 값을 True(Python) 또는 true(Bash)로 설정해 추론을 활성화할 수 있습니다.

응답 설정

튜토리얼

API 레퍼런스

추론을 지원하는 모델

`항상 켜짐` 추론이 포함된 모델

추론 비활성화

추론 활성화

응답 설정

튜토리얼

API 레퍼런스

Documentation Index

​추론을 지원하는 모델

​항상 켜짐 추론이 포함된 모델

​추론 비활성화

​추론 활성화

추론을 지원하는 모델

`항상 켜짐` 추론이 포함된 모델

추론 비활성화

추론 활성화