AI BENCHY
AI 基准排行榜
通过 AI BENCHY 基准排行榜跟踪顶级 SOTA AI 模型,轻松了解当前哪些模型在分数、推理质量、稳定性和性价比上领先。 排序方式: 总成本 ↑.
基准结果生成自 AI BENCHY 测试套件,时间:: 2026-03-06
已评估模型: 55
0/0
暂无可用数据。
| 排名 | 模型 | 公司 | 分数 所有基准测试的平均分。 | 每个结果成本 显示每个基准正确答案的平均成本(单位:美分,越低越好)。 | 总成本 | 响应时间(平均) 响应时间(平均) | 测试正确 显示完全通过的测试数量(该测试所有运行都通过)。 |
|---|---|---|---|---|---|---|---|
| 🥇 #1 | Step 3.5 Flashmedium | Stepfun | 7.4… | 0.000… | $0.000… | 29.10s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 答案错误: 3 响应时间(平均)29.10s 响应时间(最大)170.45s 响应时间(总计)290.96s … |
|
总测试数: 16
错误测试数: 6
尝试通过率: 68.8%
不稳定测试: 2…
输出令牌: 71,452
推理令牌: 155,147
响应时间:平均 29.10s · 总计 290.96s · 最大 170.45s
未遵循指令: 3 答案错误: 3
|
|||||||
| 🥈 #2 | Trinity Large Previewnone | Arcee AI | 4.2… | 0.000… | $0.000… | 3.15s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 响应时间(平均)3.15s 响应时间(最大)8.91s 响应时间(总计)50.46s … |
|
总测试数: 16
错误测试数: 11
尝试通过率: 33.3%
不稳定测试: 1…
输出令牌: 1,837
推理令牌: 0
响应时间:平均 3.15s · 总计 50.46s · 最大 8.91s
答案错误: 9 未遵循指令: 2
|
|||||||
| 🥉 #3 | LFM2-24B-A2Bnone | Liquid | 2.6… | 0.047… | $0.001… | 811ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 API 错误: 4 未遵循指令: 2 响应时间(平均)811ms 响应时间(最大)2.88s 响应时间(总计)11.35s … |
|
总测试数: 16
错误测试数: 15
尝试通过率: 14.6%
不稳定测试: 2…
输出令牌: 1,185
推理令牌: 0
响应时间:平均 811ms · 总计 11.35s · 最大 2.88s
答案错误: 9 API 错误: 4 未遵循指令: 2
|
|||||||
| #4 | GLM 4.7 Flashnone | Z.ai | 3.9… | 0.066… | $0.003… | 2.99s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 invalid tool call: 1 响应时间(平均)2.99s 响应时间(最大)7.05s 响应时间(总计)26.90s … |
|
总测试数: 16
错误测试数: 12
尝试通过率: 35.4%
不稳定测试: 3…
输出令牌: 1,855
推理令牌: 0
响应时间:平均 2.99s · 总计 26.90s · 最大 7.05s
答案错误: 9 未遵循指令: 2 common.failureReasons.invalid_tool_call: 1
|
|||||||
| #5 | GPT-4o-mininone | OpenAI | 4.0… | 0.114… | $0.005… | 2.07s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 11 未遵循指令: 1 响应时间(平均)2.07s 响应时间(最大)7.58s 响应时间(总计)18.60s … |
|
总测试数: 16
错误测试数: 12
尝试通过率: 25.0%
不稳定测试: 0…
输出令牌: 1,594
推理令牌: 0
响应时间:平均 2.07s · 总计 18.60s · 最大 7.58s
答案错误: 11 未遵循指令: 1
|
|||||||
| #6 | Qwen3.5-Flashnone | Qwen | 5.2… | 0.077… | $0.006… | 3.54s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 1 响应时间(平均)3.54s 响应时间(最大)13.73s 响应时间(总计)56.70s … |
|
总测试数: 16
错误测试数: 9
尝试通过率: 45.8%
不稳定测试: 1…
输出令牌: 3,774
推理令牌: 0
响应时间:平均 3.54s · 总计 56.70s · 最大 13.73s
答案错误: 8 未遵循指令: 1
|
|||||||
| #7 | Mercury 2none | Inception | 3.4… | 0.153… | $0.007… | 596ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 11 未遵循指令: 1 响应时间(平均)596ms 响应时间(最大)1.27s 响应时间(总计)9.54s … |
|
总测试数: 16
错误测试数: 12
尝试通过率: 31.3%
不稳定测试: 2…
输出令牌: 1,303
推理令牌: 0
响应时间:平均 596ms · 总计 9.54s · 最大 1.27s
答案错误: 11 未遵循指令: 1
|
|||||||
| #8 | Qwen3 Coder Nextmedium | Qwen | 3.5… | 0.230… | $0.007… | 12.53s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 5 响应时间(平均)12.53s 响应时间(最大)81.80s 响应时间(总计)125.32s … |
|
总测试数: 16
错误测试数: 13
尝试通过率: 27.1%
不稳定测试: 2…
输出令牌: 2,935
推理令牌: 0
响应时间:平均 12.53s · 总计 125.32s · 最大 81.80s
答案错误: 8 未遵循指令: 5
|
|||||||
| #9 | Qwen3 Coder Nextnone | Qwen | 4.0… | 0.174… | $0.007… | 11.68s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 额外格式: 1 未遵循指令: 1 响应时间(平均)11.68s 响应时间(最大)45.14s 响应时间(总计)116.76s … |
|
总测试数: 16
错误测试数: 12
尝试通过率: 25.0%
不稳定测试: 0…
输出令牌: 3,026
推理令牌: 0
响应时间:平均 11.68s · 总计 116.76s · 最大 45.14s
答案错误: 10 额外格式: 1 未遵循指令: 1
|
|||||||
| #10 | Grok 4.1 Fastnone | X AI | 2.9… | 0.247… | $0.008… | 1.90s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 11 未遵循指令: 2 响应时间(平均)1.90s 响应时间(最大)5.51s 响应时间(总计)17.14s … |
|
总测试数: 16
错误测试数: 13
尝试通过率: 25.0%
不稳定测试: 2…
输出令牌: 1,148
推理令牌: 0
响应时间:平均 1.90s · 总计 17.14s · 最大 5.51s
答案错误: 11 未遵循指令: 2
|
|||||||
| #11 | gpt-oss-120bmedium | OpenAI | 5.1… | 0.135… | $0.010… | 16.65s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 未遵循指令: 4 响应时间(平均)16.65s 响应时间(最大)50.92s 响应时间(总计)149.88s … |
|
总测试数: 16
错误测试数: 9
尝试通过率: 54.2%
不稳定测试: 5…
输出令牌: 13,210
推理令牌: 34,230
响应时间:平均 16.65s · 总计 149.88s · 最大 50.92s
答案错误: 5 未遵循指令: 4
|
|||||||
| #12 | Gemini 2.5 Flashnone | 5.2… | 0.191… | $0.012… | 923ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 1 响应时间(平均)923ms 响应时间(最大)4.39s 响应时间(总计)14.78s … | |
|
总测试数: 16
错误测试数: 10
尝试通过率: 43.8%
不稳定测试: 2…
输出令牌: 1,270
推理令牌: 0
响应时间:平均 923ms · 总计 14.78s · 最大 4.39s
答案错误: 9 未遵循指令: 1
|
|||||||
| #13 | Qwen3.5-35B-A3Bnone | Qwen | 4.7… | 0.237… | $0.015… | 4.10s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 2 响应时间(平均)4.10s 响应时间(最大)47.43s 响应时间(总计)65.62s … |
|
总测试数: 16
错误测试数: 10
尝试通过率: 50.0%
不稳定测试: 3…
输出令牌: 3,756
推理令牌: 0
响应时间:平均 4.10s · 总计 65.62s · 最大 47.43s
答案错误: 8 未遵循指令: 2
|
|||||||
| #14 | Gemini 3.1 Flash Lite Previewnone | 7.1… | 0.144… | $0.015… | 1.33s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 2 响应时间(平均)1.33s 响应时间(最大)3.39s 响应时间(总计)21.27s … | |
|
总测试数: 16
错误测试数: 6
尝试通过率: 66.7%
不稳定测试: 1…
输出令牌: 4,715
推理令牌: 0
响应时间:平均 1.33s · 总计 21.27s · 最大 3.39s
答案错误: 4 未遵循指令: 2
|
|||||||
| #15 | Kimi K2.5none | Moonshot AI | 4.1… | 0.295… | $0.015… | 11.91s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 11 响应时间(平均)11.91s 响应时间(最大)42.13s 响应时间(总计)107.16s … |
|
总测试数: 16
错误测试数: 11
尝试通过率: 39.6%
不稳定测试: 3…
输出令牌: 2,000
推理令牌: 0
响应时间:平均 11.91s · 总计 107.16s · 最大 42.13s
答案错误: 11
|
|||||||
| #16 | Qwen3.5-27Bnone | Qwen | 4.9… | 0.302… | $0.016… | 1.75s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 响应时间(平均)1.75s 响应时间(最大)9.39s 响应时间(总计)28.05s … |
|
总测试数: 16
错误测试数: 11
尝试通过率: 37.5%
不稳定测试: 2…
输出令牌: 3,161
推理令牌: 0
响应时间:平均 1.75s · 总计 28.05s · 最大 9.39s
答案错误: 9 未遵循指令: 2
|
|||||||
| #17 | DeepSeek V3.2none | DeepSeek | 5.5… | 0.220… | $0.016… | 12.86s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 6 额外格式: 2 invalid tool call: 1 响应时间(平均)12.86s 响应时间(最大)115.89s 响应时间(总计)205.78s … |
|
总测试数: 16
错误测试数: 9
尝试通过率: 54.2%
不稳定测试: 3…
输出令牌: 7,823
推理令牌: 0
响应时间:平均 12.86s · 总计 205.78s · 最大 115.89s
答案错误: 6 额外格式: 2 common.failureReasons.invalid_tool_call: 1
|
|||||||
| #18 | Qwen3.5 Plus 2026-02-15none | Qwen | 6.2… | 0.172… | $0.016… | 2.65s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 7 响应时间(平均)2.65s 响应时间(最大)6.65s 响应时间(总计)26.52s … |
|
总测试数: 16
错误测试数: 7
尝试通过率: 58.3%
不稳定测试: 1…
输出令牌: 2,015
推理令牌: 0
响应时间:平均 2.65s · 总计 26.52s · 最大 6.65s
答案错误: 7
|
|||||||
| #19 | GLM 5none | Z.ai | 6.0… | 0.200… | $0.018… | 4.03s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 7 响应时间(平均)4.03s 响应时间(最大)11.07s 响应时间(总计)36.30s … |
|
总测试数: 16
错误测试数: 7
尝试通过率: 56.3%
不稳定测试: 0…
输出令牌: 1,548
推理令牌: 0
响应时间:平均 4.03s · 总计 36.30s · 最大 11.07s
答案错误: 7
|
|||||||
| #20 | Gemini 3 Flash Previewnone | 7.2… | 0.169… | $0.019… | 1.75s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 响应时间(平均)1.75s 响应时间(最大)3.56s 响应时间(总计)15.71s … | |
|
总测试数: 16
错误测试数: 5
尝试通过率: 75.0%
不稳定测试: 2…
输出令牌: 1,411
推理令牌: 0
响应时间:平均 1.75s · 总计 15.71s · 最大 3.56s
答案错误: 5
|
|||||||
| #21 | Gemini 3.1 Flash Lite Previewlow | 7.3… | 0.177… | $0.020… | 3.36s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)3.36s 响应时间(最大)11.91s 响应时间(总计)53.84s … | |
|
总测试数: 16
错误测试数: 5
尝试通过率: 68.8%
不稳定测试: 0…
输出令牌: 1,611
推理令牌: 7,272
响应时间:平均 3.36s · 总计 53.84s · 最大 11.91s
答案错误: 4 未遵循指令: 1
|
|||||||
| #22 | Qwen3.5-122B-A10Bnone | Qwen | 5.0… | 0.333… | $0.020… | 3.72s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 1 响应时间(平均)3.72s 响应时间(最大)46.00s 响应时间(总计)59.46s … |
|
总测试数: 16
错误测试数: 10
尝试通过率: 39.6%
不稳定测试: 1…
输出令牌: 2,679
推理令牌: 0
响应时间:平均 3.72s · 总计 59.46s · 最大 46.00s
答案错误: 9 未遵循指令: 1
|
|||||||
| #23 | MiMo-V2-Flashnone | Xiaomi | 2.9… | 0.743… | $0.023… | 2.97s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 API 错误: 1 额外格式: 1 未遵循指令: 1 响应时间(平均)2.97s 响应时间(最大)19.68s 响应时间(总计)35.60s … |
|
总测试数: 16
错误测试数: 13
尝试通过率: 29.2%
不稳定测试: 4…
输出令牌: 67,790
推理令牌: 0
响应时间:平均 2.97s · 总计 35.60s · 最大 19.68s
答案错误: 10 API 错误: 1 额外格式: 1 未遵循指令: 1
|
|||||||
| #24 | DeepSeek V3.2medium | DeepSeek | 7.3… | 0.225… | $0.025… | 39.48s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 1 超时: 1 响应时间(平均)39.48s 响应时间(最大)93.11s 响应时间(总计)631.71s … |
|
总测试数: 16
错误测试数: 5
尝试通过率: 79.2%
不稳定测试: 3…
输出令牌: 7,392
推理令牌: 39,089
响应时间:平均 39.48s · 总计 631.71s · 最大 93.11s
答案错误: 3 未遵循指令: 1 超时: 1
|
|||||||
| #25 | Seed-2.0-Minimedium | Bytedance Seed | 6.9… | 0.280… | $0.028… | 65.09s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 4 未遵循指令: 1 答案错误: 1 响应时间(平均)65.09s 响应时间(最大)262.83s 响应时间(总计)846.14s … |
|
总测试数: 16
错误测试数: 6
尝试通过率: 68.8%
不稳定测试: 2…
输出令牌: 1,965
推理令牌: 58,456
响应时间:平均 65.09s · 总计 846.14s · 最大 262.83s
超时: 4 未遵循指令: 1 答案错误: 1
|
|||||||
| #26 | MiMo-V2-Flashmedium | Xiaomi | 7.2… | 0.316… | $0.035… | 25.33s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 API 错误: 1 未遵循指令: 1 响应时间(平均)25.33s 响应时间(最大)96.01s 响应时间(总计)253.33s … |
|
总测试数: 16
错误测试数: 5
尝试通过率: 72.9%
不稳定测试: 1…
输出令牌: 11,613
推理令牌: 106,714
响应时间:平均 25.33s · 总计 253.33s · 最大 96.01s
答案错误: 3 API 错误: 1 未遵循指令: 1
|
|||||||
| #27 | GLM 4.7 Flashmedium | Z.ai | 3.1… | 1.040… | $0.042… | 36.84s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 7 未遵循指令: 2 无答案: 2 invalid tool call: 1 响应时间(平均)36.84s 响应时间(最大)174.55s 响应时间(总计)331.58s … |
|
总测试数: 16
错误测试数: 12
尝试通过率: 41.7%
不稳定测试: 7…
输出令牌: 38,682
推理令牌: 64,952
响应时间:平均 36.84s · 总计 331.58s · 最大 174.55s
答案错误: 7 未遵循指令: 2 无答案: 2 common.failureReasons.invalid_tool_call: 1
|
|||||||
| #28 | Mercury 2medium | Inception | 5.3… | 0.631… | $0.045… | 2.36s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 未遵循指令: 4 响应时间(平均)2.36s 响应时间(最大)14.63s 响应时间(总计)35.39s … |
|
总测试数: 16
错误测试数: 9
尝试通过率: 54.2%
不稳定测试: 3…
输出令牌: 3,708
推理令牌: 45,921
响应时间:平均 2.36s · 总计 35.39s · 最大 14.63s
答案错误: 5 未遵循指令: 4
|
|||||||
| #29 | Gemini 3.1 Flash Lite Previewmedium | 7.5… | 0.443… | $0.049… | 3.83s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)3.83s 响应时间(最大)14.93s 响应时间(总计)61.25s … | |
|
总测试数: 16
错误测试数: 5
尝试通过率: 68.8%
不稳定测试: 0…
输出令牌: 1,731
推理令牌: 25,821
响应时间:平均 3.83s · 总计 61.25s · 最大 14.93s
答案错误: 4 未遵循指令: 1
|
|||||||
| #30 | Grok 4.1 Fastmedium | X AI | 6.2… | 0.563… | $0.051… | 26.35s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 答案错误: 2 无答案: 1 超时: 1 响应时间(平均)26.35s 响应时间(最大)121.79s 响应时间(总计)237.11s … |
|
总测试数: 16
错误测试数: 7
尝试通过率: 66.7%
不稳定测试: 4…
输出令牌: 1,183
推理令牌: 83,875
响应时间:平均 26.35s · 总计 237.11s · 最大 121.79s
未遵循指令: 3 答案错误: 2 无答案: 1 超时: 1
|
|||||||
| #31 | GPT-5 Nanomedium | OpenAI | 5.5… | 0.856… | $0.060… | 47.94s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 未遵循指令: 3 超时: 1 响应时间(平均)47.94s 响应时间(最大)204.02s 响应时间(总计)431.47s … |
|
总测试数: 16
错误测试数: 9
尝试通过率: 60.4%
不稳定测试: 6…
输出令牌: 4,386
推理令牌: 142,080
响应时间:平均 47.94s · 总计 431.47s · 最大 204.02s
答案错误: 5 未遵循指令: 3 超时: 1
|
|||||||
| #32 | Qwen3.5-Flashmedium | Qwen | 6.9… | 0.720… | $0.072… | 70.81s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 3 API 错误: 1 未遵循指令: 1 答案错误: 1 响应时间(平均)70.81s 响应时间(最大)234.29s 响应时间(总计)1132.90s … |
|
总测试数: 16
错误测试数: 6
尝试通过率: 81.3%
不稳定测试: 5…
输出令牌: 1,807
推理令牌: 169,952
响应时间:平均 70.81s · 总计 1132.90s · 最大 234.29s
超时: 3 API 错误: 1 未遵循指令: 1 答案错误: 1
|
|||||||
| #33 | Gemini 3 Flash Previewlow | 8.2… | 0.607… | $0.079… | 6.11s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 响应时间(平均)6.11s 响应时间(最大)14.72s 响应时间(总计)97.74s … | |
|
总测试数: 16
错误测试数: 3
尝试通过率: 83.3%
不稳定测试: 1…
输出令牌: 1,586
推理令牌: 19,950
响应时间:平均 6.11s · 总计 97.74s · 最大 14.72s
答案错误: 3
|
|||||||
| #34 | GPT-5.4none | OpenAI | 4.5… | 1.562… | $0.094… | 1.48s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 1 响应时间(平均)1.48s 响应时间(最大)2.89s 响应时间(总计)23.64s … |
|
总测试数: 16
错误测试数: 10
尝试通过率: 41.7%
不稳定测试: 2…
输出令牌: 1,819
推理令牌: 0
响应时间:平均 1.48s · 总计 23.64s · 最大 2.89s
答案错误: 9 未遵循指令: 1
|
|||||||
| #35 | GLM 5medium | Z.ai | 7.4… | 0.933… | $0.103… | 16.16s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 2 未遵循指令: 1 无答案: 1 超时: 1 响应时间(平均)16.16s 响应时间(最大)28.96s 响应时间(总计)129.26s … |
|
总测试数: 16
错误测试数: 5
尝试通过率: 83.3%
不稳定测试: 4…
输出令牌: 19,773
推理令牌: 36,459
响应时间:平均 16.16s · 总计 129.26s · 最大 28.96s
答案错误: 2 未遵循指令: 1 无答案: 1 超时: 1
|
|||||||
| #36 | GPT-5 Minimedium | OpenAI | 6.0… | 1.457… | $0.117… | 25.14s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 4 答案错误: 3 超时: 1 响应时间(平均)25.14s 响应时间(最大)88.15s 响应时间(总计)402.29s … |
|
总测试数: 16
错误测试数: 8
尝试通过率: 58.3%
不稳定测试: 2…
输出令牌: 5,826
推理令牌: 48,768
响应时间:平均 25.14s · 总计 402.29s · 最大 88.15s
未遵循指令: 4 答案错误: 3 超时: 1
|
|||||||
| #37 | Gemini 3 Flash Previewmedium | 10.0… | 1.025… | $0.164… | 12.36s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 没有失败答案。 响应时间(平均)12.36s 响应时间(最大)50.16s 响应时间(总计)111.21s … | |
|
总测试数: 16
错误测试数: 0
尝试通过率: 100.0%
不稳定测试: 0…
输出令牌: 1,634
推理令牌: 47,907
响应时间:平均 12.36s · 总计 111.21s · 最大 50.16s
|
|||||||
| #38 | Qwen3.5 Plus 2026-02-15medium | Qwen | 8.3… | 1.264… | $0.165… | 34.45s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 2 答案错误: 1 响应时间(平均)34.45s 响应时间(最大)79.86s 响应时间(总计)310.09s … |
|
总测试数: 16
错误测试数: 3
尝试通过率: 85.4%
不稳定测试: 1…
输出令牌: 1,735
推理令牌: 77,212
响应时间:平均 34.45s · 总计 310.09s · 最大 79.86s
超时: 2 答案错误: 1
|
|||||||
| #39 | Gemini 3 Pro Previewmedium | 8.2… | 1.477… | $0.192… | 7.15s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 响应时间(平均)7.15s 响应时间(最大)11.96s 响应时间(总计)64.34s … | |
|
总测试数: 16
错误测试数: 3
尝试通过率: 81.3%
不稳定测试: 0…
输出令牌: 1,502
推理令牌: 9,706
响应时间:平均 7.15s · 总计 64.34s · 最大 11.96s
答案错误: 3
|
|||||||
| #40 | Kimi K2.5medium | Moonshot AI | 6.4… | 2.171… | $0.196… | 69.83s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 无答案: 1 超时: 1 响应时间(平均)69.83s 响应时间(最大)137.29s 响应时间(总计)628.45s … |
|
总测试数: 16
错误测试数: 7
尝试通过率: 72.9%
不稳定测试: 5…
输出令牌: 38,453
推理令牌: 72,496
响应时间:平均 69.83s · 总计 628.45s · 最大 137.29s
答案错误: 3 未遵循指令: 2 无答案: 1 超时: 1
|
|||||||
| #41 | MiniMax M2.5medium | Minimax | 4.7… | 4.981… | $0.250… | 43.03s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 未遵循指令: 3 超时: 2 invalid tool call: 1 响应时间(平均)43.03s 响应时间(最大)237.27s 响应时间(总计)387.25s … |
|
总测试数: 16
错误测试数: 11
尝试通过率: 60.4%
不稳定测试: 9…
输出令牌: 107,044
推理令牌: 206,190
响应时间:平均 43.03s · 总计 387.25s · 最大 237.27s
答案错误: 5 未遵循指令: 3 超时: 2 common.failureReasons.invalid_tool_call: 1
|
|||||||
| #42 | Claude Sonnet 4.6none | Anthropic | 6.8… | 2.504… | $0.251… | 5.57s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 额外格式: 3 答案错误: 2 未遵循指令: 1 响应时间(平均)5.57s 响应时间(最大)23.84s 响应时间(总计)50.12s … |
|
总测试数: 16
错误测试数: 6
尝试通过率: 66.7%
不稳定测试: 1…
输出令牌: 6,895
推理令牌: 0
响应时间:平均 5.57s · 总计 50.12s · 最大 23.84s
额外格式: 3 答案错误: 2 未遵循指令: 1
|
|||||||
| #43 | GPT-5.2 Chatnone | OpenAI | 7.4… | 2.440… | $0.269… | 7.03s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)7.03s 响应时间(最大)38.52s 响应时间(总计)112.51s … |
|
总测试数: 16
错误测试数: 5
尝试通过率: 75.0%
不稳定测试: 2…
输出令牌: 15,845
推理令牌: 0
响应时间:平均 7.03s · 总计 112.51s · 最大 38.52s
答案错误: 4 未遵循指令: 1
|
|||||||
| #44 | Gemini 2.5 Flashmedium | 7.4… | 2.619… | $0.288… | 12.35s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)12.35s 响应时间(最大)95.48s 响应时间(总计)197.62s … | |
|
总测试数: 16
错误测试数: 5
尝试通过率: 72.9%
不稳定测试: 1…
输出令牌: 1,370
推理令牌: 110,522
响应时间:平均 12.35s · 总计 197.62s · 最大 95.48s
答案错误: 4 未遵循指令: 1
|
|||||||
| #45 | GPT-5.2medium | OpenAI | 6.5… | 3.125… | $0.313… | 15.33s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 无答案: 1 超时: 1 答案错误: 1 响应时间(平均)15.33s 响应时间(最大)77.80s 响应时间(总计)138.01s … |
|
总测试数: 16
错误测试数: 6
尝试通过率: 75.0%
不稳定测试: 4…
输出令牌: 2,220
推理令牌: 16,811
响应时间:平均 15.33s · 总计 138.01s · 最大 77.80s
未遵循指令: 3 无答案: 1 超时: 1 答案错误: 1
|
|||||||
| #46 | GPT-5.3 Chatnone | OpenAI | 7.3… | 3.163… | $0.317… | 5.96s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 2 响应时间(平均)5.96s 响应时间(最大)18.33s 响应时间(总计)95.30s … |
|
总测试数: 16
错误测试数: 6
尝试通过率: 70.8%
不稳定测试: 3…
输出令牌: 19,272
推理令牌: 0
响应时间:平均 5.96s · 总计 95.30s · 最大 18.33s
答案错误: 4 未遵循指令: 2
|
|||||||
| #47 | Qwen3.5-35B-A3Bmedium | Qwen | 5.5… | 4.251… | $0.341… | 43.93s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 4 答案错误: 2 API 错误: 1 无答案: 1 响应时间(平均)43.93s 响应时间(最大)106.00s 响应时间(总计)702.85s … |
|
总测试数: 16
错误测试数: 8
尝试通过率: 77.1%
不稳定测试: 7…
输出令牌: 5,495
推理令牌: 169,266
响应时间:平均 43.93s · 总计 702.85s · 最大 106.00s
超时: 4 答案错误: 2 API 错误: 1 无答案: 1
|
|||||||
| #48 | Qwen3.5-27Bmedium | Qwen | 8.2… | 3.585… | $0.431… | 52.13s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 2 超时: 1 答案错误: 1 响应时间(平均)52.13s 响应时间(最大)163.96s 响应时间(总计)834.16s … |
|
总测试数: 16
错误测试数: 4
尝试通过率: 81.3%
不稳定测试: 2…
输出令牌: 1,658
推理令牌: 200,786
响应时间:平均 52.13s · 总计 834.16s · 最大 163.96s
未遵循指令: 2 超时: 1 答案错误: 1
|
|||||||
| #49 | Qwen3.5-122B-A10Bmedium | Qwen | 7.7… | 4.095… | $0.492… | 29.74s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 超时: 1 响应时间(平均)29.74s 响应时间(最大)119.29s 响应时间(总计)475.83s … |
|
总测试数: 16
错误测试数: 4
尝试通过率: 79.2%
不稳定测试: 2…
输出令牌: 17,292
推理令牌: 145,625
响应时间:平均 29.74s · 总计 475.83s · 最大 119.29s
答案错误: 3 超时: 1
|
|||||||
| #50 | Gemini 3.1 Pro Previewmedium | 9.4… | 3.417… | $0.513… | 16.60s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 1 响应时间(平均)16.60s 响应时间(最大)40.61s 响应时间(总计)149.36s … | |
|
总测试数: 16
错误测试数: 1
尝试通过率: 93.8%
不稳定测试: 0…
输出令牌: 1,521
推理令牌: 35,656
响应时间:平均 16.60s · 总计 149.36s · 最大 40.61s
答案错误: 1
|
|||||||
| #51 | GPT-5.3-Codexmedium | OpenAI | 8.4… | 4.485… | $0.539… | 16.59s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 2 答案错误: 2 响应时间(平均)16.59s 响应时间(最大)100.93s 响应时间(总计)265.39s … |
|
总测试数: 16
错误测试数: 4
尝试通过率: 83.3%
不稳定测试: 2…
输出令牌: 1,764
推理令牌: 33,348
响应时间:平均 16.59s · 总计 265.39s · 最大 100.93s
未遵循指令: 2 答案错误: 2
|
|||||||
| #52 | GPT-5.4medium | OpenAI | 8.0… | 6.601… | $0.793… | 20.05s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 2 答案错误: 2 响应时间(平均)20.05s 响应时间(最大)100.41s 响应时间(总计)320.87s … |
|
总测试数: 16
错误测试数: 4
尝试通过率: 83.3%
不稳定测试: 3…
输出令牌: 1,756
推理令牌: 46,642
响应时间:平均 20.05s · 总计 320.87s · 最大 100.41s
未遵循指令: 2 答案错误: 2
|
|||||||
| #53 | Claude Sonnet 4.6medium | Anthropic | 7.7… | 8.525… | $1.023… | 11.23s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 额外格式: 2 超时: 1 答案错误: 1 响应时间(平均)11.23s 响应时间(最大)46.35s 响应时间(总计)89.84s … |
|
总测试数: 16
错误测试数: 4
尝试通过率: 77.1%
不稳定测试: 1…
输出令牌: 35,159
推理令牌: 24,687
响应时间:平均 11.23s · 总计 89.84s · 最大 46.35s
额外格式: 2 超时: 1 答案错误: 1
|
|||||||
| #54 | Claude Opus 4.6medium | Anthropic | 6.6… | 13.118… | $1.312… | 22.86s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 额外格式: 4 答案错误: 2 响应时间(平均)22.86s 响应时间(最大)83.40s 响应时间(总计)205.71s … |
|
总测试数: 16
错误测试数: 6
尝试通过率: 66.7%
不稳定测试: 2…
输出令牌: 26,254
推理令牌: 17,363
响应时间:平均 22.86s · 总计 205.71s · 最大 83.40s
额外格式: 4 答案错误: 2
|
|||||||
| #55 | Gemini 3.1 Flash Lite Previewhigh | 8.2… | 19.243… | $2.310… | 68.83s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 1 响应时间(平均)68.83s 响应时间(最大)280.52s 响应时间(总计)1101.32s … | |
|
总测试数: 16
错误测试数: 4
尝试通过率: 77.1%
不稳定测试: 1…
输出令牌: 1,283
推理令牌: 1,533,310
响应时间:平均 68.83s · 总计 1101.32s · 最大 280.52s
答案错误: 3 未遵循指令: 1
|
|||||||
快速对比
Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro PreviewmediumGemini 3 Flash PreviewmediumvsGPT-5.3-CodexmediumGemini 3 Flash PreviewmediumvsQwen3.5 Plus 2026-02-15mediumGemini 3 Flash PreviewmediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewmediumvsGemini 3 Pro PreviewmediumGemini 3 Flash PreviewmediumvsQwen3.5-27BmediumGemini 3 Flash PreviewmediumvsStep 3.5 Flashmedium免费可用Gemini 3.1 Pro PreviewmediumvsGPT-5.3-CodexmediumGPT-5.3-CodexmediumvsQwen3.5 Plus 2026-02-15mediumQwen3.5 Plus 2026-02-15mediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewlowvsGemini 3 Pro PreviewmediumGemini 3 Pro PreviewmediumvsQwen3.5-27Bmedium