基于 9/12 个共同指标比较

六维能力雷达图

点击轴标签可查看该维度的详细 Benchmark 分数

价格性价比散点图

X 轴: 每百万 token 均价 (log scale) | Y 轴: 综合能力分 | 绿框 = Pareto 前沿

模型
推理
代码
数学
对话
Agent
速度
Radar Score输入$/1M输出$/1M
Gemini 3.1 Pro
69
54
96
87
68
42
69
~$2~$12
Kimi K2 Thinking
64
47
95
71
59
65
67
$0.47$2
GPT-5 Codex
65
38
99
74
61
57
66
~$1.25~$5
GLM-4.7
66
32
95
73
65
62
65
~$0.5~$2
Claude Opus 4.6
51
62
94
72
70
24
62
$5$25