基于 10/12 个共同指标比较

六维能力雷达图

点击轴标签可查看该维度的详细 Benchmark 分数

价格性价比散点图

X 轴: 每百万 token 均价 (log scale) | Y 轴: 综合能力分 | 绿框 = Pareto 前沿

模型
推理
代码
数学
对话
Agent
速度
Radar Score输入$/1M输出$/1M
Gemini 3.1 Pro
69
54
96
87
68
41
69
~$2~$12
Kimi K2 Thinking
64
47
95
71
59
64
67
$0.47$2
Claude Opus 4.5
68
61
91
74
69
35
66
$5$25
GPT-5.2
66
58
97
72
60
46
66
$1.75$14
GLM 5
55
58
80
78
72
44
64
$0.95$2.55