OpenAI

GPT-4o

multimodalfunction_callingvisionlong_context
Radar Score
34/100
与其他模型对比 →

能力评分

推理
43/100
3/3
代码
15/100
2/2
数学
6/100
1/1
对话
57/100
2/2
Agent
13/100
2/2
速度
68/100
2/2

基准测试详情

推理

GPQA Diamond
52.6%
MMLU-Pro
74.0%
Humanity's Last Exam
2.8%

代码

SWE-Bench Verified
21.6%
Terminal-Bench Hard
8.3%

数学

AIME 2025
6.0%

对话

Chatbot Arena
1443 ELO
IFEval
34.3%

Agent

τ²-Bench
25.1%
GDPval-AA
0.0%

速度

Output TPS
93.3 tok/s
TTFT
520.0 ms

价格

输入 / 百万 token$2.50
输出 / 百万 token$10.00
典型查询成本$0.0075

1K 输入 + 500 输出 token

规格

供应商OpenAI
发布日期2025-06-01
上下文(输入)128K
上下文(输出)16K
开源
推理模型