AI BENCHY
比较
❤️ Made by XCS
Your ad here

模型名称

OpenAI: GPT-5.3-Codex

推理(medium)

基准结果生成自 AI BENCHY 测试套件,时间: : 2026年2月24日

指标 OpenAI: GPT-5.3-Codex
排名#6
公司OpenAI
Score 7.77
一致性 8.75
每个结果成本 4.9342
总成本 $0.44408
测试正确
尝试通过率 76.9%
不稳定测试 2
输出令牌 947
推理令牌 29,564
响应时间(平均)17944ms
响应时间(总计)233267ms
响应时间(最大)100927ms

类别细分

类别 完全通过的测试 Score 一致性 尝试通过率 不稳定测试 推理得分 响应时间(平均) 成本
反AI技巧 10.00 10.00 100.0% 0 6.00 4687ms $0.02371
数据解析与提取 10.00 10.00 100.0% 0 1.25 3180ms $0.02600
领域专项 4.00 7.21 55.6% 1 1.00 64314ms $0.35664
指令遵循 9.00 10.00 50.0% 0 1.00 3037ms $0.01216
Puzzle Solving 7.00 7.38 77.8% 1 6.00 4610ms $0.02559

已对比模型

将 OpenAI: GPT-5.3-Codex 与...对比

#5 · Google

Google: Gemini 3 Flash Preview

推理(low)

Score: 8.23

一致性: 8.71

尝试通过率: 82.0%

不稳定测试: 2

每个结果成本: 0.6173

测试正确:

总成本: $0.06174

比较

#7 · OpenAI

OpenAI: GPT-5.2

推理(medium)

Score: 7.38

一致性: 8.73

尝试通过率: 76.9%

不稳定测试: 2

每个结果成本: 2.5637

测试正确:

总成本: $0.23074

比较

#4 · Qwen

Qwen: Qwen3.5 Plus 2026-02-15

推理(medium)

Score: 8.54

一致性: 9.35

尝试通过率: 87.2%

不稳定测试: 1

每个结果成本: 2.1621

测试正确:

总成本: $0.23784

比较

快速对比

将 OpenAI: GPT-5.3-Codex 与...对比