Google’s Gemma 4와 같은 추론 모델은 최종 답변과 함께 추론 단계에 대한 정보도 반환합니다. 이 페이지에서는 W&B Inference에서 추론 가능한 모델을 파악하는 방법, 응답에서 추론 출력이 어디에 표시되는지, 그리고 이 기능을 전환할 수 있는 모델에서 추론을 켜거나 끄는 방법을 설명합니다. 모델이 추론을 지원하는지 확인하려면 다음 지원되는 모델 표 또는 UI의 해당 카탈로그 페이지에 있는 Supported Features 섹션을 확인하세요. 추론 정보는 응답의Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-john-wbdocs-2044-rename-serverless-products.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
reasoning 필드에 포함됩니다. 추론 모델이 아닌 경우 응답에서 이 필드의 값은 null입니다.
추론을 지원하는 모델
| 모델 ID(API 사용 시) | 추론 지원 |
|---|---|
google/gemma-4-31B-it | 기본적으로 활성화됨 |
MiniMaxAI/MiniMax-M2.5 | 항상 켜짐 |
moonshotai/Kimi-K2.5 | 항상 켜짐 |
nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8 | 기본적으로 활성화됨 |
openai/gpt-oss-120b | 항상 켜짐 |
openai/gpt-oss-20b | 항상 켜짐 |
Qwen/Qwen3.5-35B-A3B | 기본적으로 활성화됨 |
Qwen/Qwen3-235B-A22B-Thinking-2507 | 항상 켜짐 |
zai-org/GLM-5.1 | 기본적으로 활성화됨 |
항상 켜짐 추론이 포함된 모델
항상 켜짐으로 표시되어 있으면, 추론이 항상 포함되며 이를 비활성화할 수 없습니다.
추론 비활성화
기본적으로 활성화됨로 표시되어 있다면, 토큰 사용량을 줄이거나 응답을 더 단순하게 만들기 위해 추론을 비활성화할 수 있습니다. 요청에서 추론을 사용하지 않으려면 chat_template_kwargs에서 enable_thinking 플래그를 False(Python) 또는 false(Bash)로 설정하세요.
- Python
- Bash
추론 활성화
Disabled by default로 표시된 경우, 앞선 코드 스니펫에서 enable_thinking 플래그 값을 True(Python) 또는 true(Bash)로 설정해 추론을 활성화할 수 있습니다.