基于 10/12 个共同指标比较

六维能力雷达图

点击轴标签可查看该维度的详细 Benchmark 分数

价格性价比散点图

X 轴: 每百万 token 均价 (log scale) | Y 轴: 综合能力分 | 绿框 = Pareto 前沿

模型
推理
代码
数学
对话
Agent
速度
Radar Score输入$/1M输出$/1M
Gemini 3 Flash
71
57
97
85
58
54
70
$0.5$3
GPT-5.4
67
58
95
84
75
23
67
~$0~$0
Kimi K2 Thinking
64
47
95
72
59
62
66
$0.47$2
GLM-4.7
66
32
95
74
65
60
65
~$0.5~$2
Claude Opus 4.6
51
62
94
72
70
26
63
$5$25