Alibaba

Qwen3 Max Thinking

开源推理模型

Radar Score

47/100

11/12 benchmarks — 部分数据

与其他模型对比 →

能力评分

推理

57/100

3/3

代码

20/100

1/2

数学

75/100

1/1

对话

62/100

2/2

Agent

50/100

2/2

速度

20/100

2/2

基准测试详情

推理

GPQA Diamond

76.4%

MMLU-Pro

83.8%

Humanity's Last Exam

9.3%

代码

SWE-Bench Verified

— 暂无数据

Terminal-Bench Hard

19.7%

数学

AIME 2025

75.0%

对话

Chatbot Arena

1435 ELO

IFEval

48.0%

Agent

τ²-Bench

83.6%

GDPval-AA

16.4%

速度

Output TPS

35.7 tok/s

TTFT

1810.0 ms

价格

输入 / 百万 token$1.20

输出 / 百万 token$6.00

典型查询成本$0.031

1K 输入 + 5K 输出 token（推理）

规格

供应商Alibaba

发布日期2026-02-09

上下文（输入）262K

上下文（输出）33K

开源是

推理模型是