AI BENCHY
AI 基准排行榜
基准结果生成自 AI BENCHY 测试套件,时间:: 2026-03-30
已评估模型: 78
78/80
筛选模型
没有模型匹配当前搜索和筛选条件。
| 排名 | 模型 | 分数 所有基准测试的平均分。 | 公司 | 总成本 | 响应时间(平均) 响应时间(平均) | 测试正确 显示完全通过的测试数量(该测试所有运行都通过)。 |
|---|---|---|---|---|---|---|
| #1🥇 #1 | Gemini 3 Flash Previewmedium | 10.0… | $0.166… | 11.39s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 没有失败答案。 响应时间(平均)11.39s 响应时间(最大)50.16s 响应时间(总计)113.86s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 0
尝试通过率: 100.0%
不稳定测试: 0…
输出令牌: 1,640
推理令牌: 48,270
响应时间:平均 11.39s · 总计 113.86s · 最大 50.16s
|
||||||
| #2🥈 #2 | Gemini 3.1 Pro Previewmedium | 9.6… | $0.522… | 15.56s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 1 响应时间(平均)15.56s 响应时间(最大)40.61s 响应时间(总计)155.64s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 1
尝试通过率: 94.1%
不稳定测试: 0…
输出令牌: 1,527
推理令牌: 36,341
响应时间:平均 15.56s · 总计 155.64s · 最大 40.61s
|
||||||
| #3🥉 #3 | Gemini 3 Flash Previewlow | 8.7… | $0.081… | 5.95s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 响应时间(平均)5.95s 响应时间(最大)14.72s 响应时间(总计)101.19s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 3
尝试通过率: 84.3%
不稳定测试: 1…
输出令牌: 1,592
推理令牌: 20,556
响应时间:平均 5.95s · 总计 101.19s · 最大 14.72s
|
||||||
| #4#4 | Gemini 3 PRO Previewmedium | 8.7… | $0.197… | 9.06s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 响应时间(平均)9.06s 响应时间(最大)26.24s 响应时间(总计)90.58s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 3
尝试通过率: 82.4%
不稳定测试: 0…
输出令牌: 1,508
推理令牌: 10,084
响应时间:平均 9.06s · 总计 90.58s · 最大 26.24s
|
||||||
| #5#5 | Seed-2.0-Litemedium | 8.5… | Bytedance Seed | $0.105… | 27.78s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 响应时间(平均)27.78s 响应时间(最大)168.71s 响应时间(总计)472.24s … |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 82.4%
不稳定测试: 3…
输出令牌: 2,821
推理令牌: 44,723
响应时间:平均 27.78s · 总计 472.24s · 最大 168.71s
|
||||||
| #6#6 | Qwen3.6 Plus Previewmedium | 8.5… | Qwen | $0.000… | 13.94s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 1 响应时间(平均)13.94s 响应时间(最大)43.55s 响应时间(总计)237.01s … |
|
查看模型卡片
总测试数: 17
错误测试数: 4
尝试通过率: 76.5%
不稳定测试: 0…
输出令牌: 1,756
推理令牌: 77,213
响应时间:平均 13.94s · 总计 237.01s · 最大 43.55s
|
||||||
| #7#7 | GPT-5.3-Codexmedium | 8.5… | OpenAI | $0.544… | 15.76s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 响应时间(平均)15.76s 响应时间(最大)100.93s 响应时间(总计)267.97s … |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 82.4%
不稳定测试: 3…
输出令牌: 1,788
推理令牌: 33,649
响应时间:平均 15.76s · 总计 267.97s · 最大 100.93s
|
||||||
| #8#8 | Gemini 3.1 Flash Lite Previewhigh已归档模型:该模型将不再更新,也不会在新测试中继续测试。 | 8.4… | $2.310… | 68.83s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 1 响应时间(平均)68.83s 响应时间(最大)280.52s 响应时间(总计)1101.32s … | |
|
查看模型卡片
总测试数: 16
错误测试数: 4
尝试通过率: 77.1%
不稳定测试: 1…
输出令牌: 1,283
推理令牌: 1,533,310
响应时间:平均 68.83s · 总计 1101.32s · 最大 280.52s
|
||||||
| #9#9 | Qwen3.5 Plus 2026-02-15medium | 8.4… | Qwen | $0.189… | 39.13s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 2 答案错误: 2 响应时间(平均)39.13s 响应时间(最大)81.20s 响应时间(总计)391.29s … |
|
查看模型卡片
总测试数: 17
错误测试数: 4
尝试通过率: 82.4%
不稳定测试: 2…
输出令牌: 1,754
推理令牌: 92,522
响应时间:平均 39.13s · 总计 391.29s · 最大 81.20s
|
||||||
| #10#10 | Qwen3.5-122B-A10Bmedium | 8.4… | Qwen | $0.505… | 29.05s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 超时: 1 响应时间(平均)29.05s 响应时间(最大)119.29s 响应时间(总计)493.86s … |
|
查看模型卡片
总测试数: 17
错误测试数: 4
尝试通过率: 80.4%
不稳定测试: 2…
输出令牌: 17,313
推理令牌: 151,974
响应时间:平均 29.05s · 总计 493.86s · 最大 119.29s
|
||||||
| #11#11 | Qwen3.5-27Bmedium | 8.3… | Qwen | $0.467… | 52.01s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 2 额外格式: 1 超时: 1 答案错误: 1 响应时间(平均)52.01s 响应时间(最大)163.96s 响应时间(总计)884.10s … |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 80.4%
不稳定测试: 3…
输出令牌: 2,125
推理令牌: 223,335
响应时间:平均 52.01s · 总计 884.10s · 最大 163.96s
|
||||||
| #12#12 | GLM 5medium | 8.3… | Z.ai | $0.108… | 17.15s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 2 未遵循指令: 1 无答案: 1 超时: 1 响应时间(平均)17.15s 响应时间(最大)28.96s 响应时间(总计)154.32s … |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 84.3%
不稳定测试: 4…
输出令牌: 19,833
推理令牌: 38,523
响应时间:平均 17.15s · 总计 154.32s · 最大 28.96s
|
||||||
| #13#13 | DeepSeek V3.2medium | 8.2… | DeepSeek | $0.026… | 38.49s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 1 超时: 1 响应时间(平均)38.49s 响应时间(最大)93.11s 响应时间(总计)654.41s … |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 80.4%
不稳定测试: 3…
输出令牌: 9,994
推理令牌: 41,719
响应时间:平均 38.49s · 总计 654.41s · 最大 93.11s
|
||||||
| #14#14 | Gemini 2.5 Flashmedium | 8.1… | $0.292… | 11.88s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)11.88s 响应时间(最大)95.48s 响应时间(总计)201.89s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 74.5%
不稳定测试: 1…
输出令牌: 1,376
推理令牌: 111,923
响应时间:平均 11.88s · 总计 201.89s · 最大 95.48s
|
||||||
| #15#15 | Gemini 3.1 Flash Lite Previewmedium | 8.1… | $0.050… | 3.70s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)3.70s 响应时间(最大)14.93s 响应时间(总计)62.97s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 70.6%
不稳定测试: 0…
输出令牌: 1,737
推理令牌: 26,346
响应时间:平均 3.70s · 总计 62.97s · 最大 14.93s
|
||||||
| #16#16 | GPT-5.4medium | 8.1… | OpenAI | $0.794… | 18.95s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 响应时间(平均)18.95s 响应时间(最大)100.41s 响应时间(总计)322.23s … |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 78.4%
不稳定测试: 3…
输出令牌: 1,780
推理令牌: 46,687
响应时间:平均 18.95s · 总计 322.23s · 最大 100.41s
|
||||||
| #17#17 | GLM 5 Turbomedium | 8.0… | Z.ai | $0.166… | 17.98s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 超时: 1 响应时间(平均)17.98s 响应时间(最大)194.23s 响应时间(总计)305.72s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 76.5%
不稳定测试: 5…
输出令牌: 11,865
推理令牌: 35,632
响应时间:平均 17.98s · 总计 305.72s · 最大 194.23s
|
||||||
| #18#18 | Gemini 3.1 Flash Lite Previewlow | 8.0… | $0.021… | 3.28s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)3.28s 响应时间(最大)11.91s 响应时间(总计)55.80s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 70.6%
不稳定测试: 0…
输出令牌: 1,617
推理令牌: 7,686
响应时间:平均 3.28s · 总计 55.80s · 最大 11.91s
|
||||||
| #19#19 | Gemini 3 Flash Previewnone | 8.0… | $0.019… | 1.66s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 响应时间(平均)1.66s 响应时间(最大)3.56s 响应时间(总计)16.61s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 76.5%
不稳定测试: 2…
输出令牌: 1,417
推理令牌: 0
响应时间:平均 1.66s · 总计 16.61s · 最大 3.56s
|
||||||
| #20#20 | Qwen3.5-Flashmedium | 8.0… | Qwen | $0.076… | 67.96s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 3 API 错误: 1 未遵循指令: 1 答案错误: 1 响应时间(平均)67.96s 响应时间(最大)234.29s 响应时间(总计)1155.28s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 82.4%
不稳定测试: 5…
输出令牌: 1,827
推理令牌: 179,299
响应时间:平均 67.96s · 总计 1155.28s · 最大 234.29s
|
||||||
| #21#21 | MiMo-V2-Promedium | 8.0… | Xiaomi | $0.123… | 9.78s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 额外格式: 1 未遵循指令: 1 超时: 1 响应时间(平均)9.78s 响应时间(最大)64.71s 响应时间(总计)156.45s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 76.5%
不稳定测试: 3…
输出令牌: 1,875
推理令牌: 26,959
响应时间:平均 9.78s · 总计 156.45s · 最大 64.71s
|
||||||
| #22#22 | Claude Sonnet 4.6medium | 7.9… | Anthropic | $1.024… | 10.09s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 额外格式: 2 答案错误: 2 超时: 1 响应时间(平均)10.09s 响应时间(最大)46.35s 响应时间(总计)90.85s … |
|
查看模型卡片
总测试数: 17
错误测试数: 5
尝试通过率: 72.6%
不稳定测试: 1…
输出令牌: 35,174
推理令牌: 24,687
响应时间:平均 10.09s · 总计 90.85s · 最大 46.35s
|
||||||
| #23#23 | MiMo-V2-Omnimedium | 7.9… | Xiaomi | $0.084… | 13.71s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 2 答案错误: 2 额外格式: 1 无答案: 1 响应时间(平均)13.71s 响应时间(最大)158.78s 响应时间(总计)233.06s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 64.7%
不稳定测试: 0…
输出令牌: 663
推理令牌: 39,001
响应时间:平均 13.71s · 总计 233.06s · 最大 158.78s
|
||||||
| #24#24 | Grok 4.20 Betamedium | 7.9… | X AI | $0.608… | 8.54s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 答案错误: 3 响应时间(平均)8.54s 响应时间(最大)24.21s 响应时间(总计)145.26s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 72.6%
不稳定测试: 2…
输出令牌: 1,487
推理令牌: 87,922
响应时间:平均 8.54s · 总计 145.26s · 最大 24.21s
|
||||||
| #25#25 | Step 3.5 Flashmedium | 7.9… | Stepfun | $0.000… | 26.78s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 答案错误: 3 响应时间(平均)26.78s 响应时间(最大)170.45s 响应时间(总计)294.58s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 70.6%
不稳定测试: 2…
输出令牌: 71,904
推理令牌: 155,607
响应时间:平均 26.78s · 总计 294.58s · 最大 170.45s
|
||||||
| #26#26 | Gemini 3.1 Flash Lite Previewnone | 7.8… | $0.015… | 1.29s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 2 响应时间(平均)1.29s 响应时间(最大)3.39s 响应时间(总计)21.95s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 68.6%
不稳定测试: 1…
输出令牌: 4,721
推理令牌: 0
响应时间:平均 1.29s · 总计 21.95s · 最大 3.39s
|
||||||
| #27#27 | GPT-5.2 Chatnone | 7.8… | OpenAI | $0.271… | 6.72s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 未遵循指令: 1 响应时间(平均)6.72s 响应时间(最大)38.52s 响应时间(总计)114.20s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 74.5%
不稳定测试: 3…
输出令牌: 16,001
推理令牌: 0
响应时间:平均 6.72s · 总计 114.20s · 最大 38.52s
|
||||||
| #28#28 | MiMo-V2-Flashmedium | 7.6… | Xiaomi | $0.037… | 24.30s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 API 错误: 1 额外格式: 1 未遵循指令: 1 响应时间(平均)24.30s 响应时间(最大)96.01s 响应时间(总计)267.31s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 70.6%
不稳定测试: 2…
输出令牌: 11,959
推理令牌: 111,534
响应时间:平均 24.30s · 总计 267.31s · 最大 96.01s
|
||||||
| #29#29 | GPT-5.3 Chatnone | 7.6… | OpenAI | $0.318… | 5.68s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 未遵循指令: 2 响应时间(平均)5.68s 响应时间(最大)18.33s 响应时间(总计)96.58s … |
|
查看模型卡片
总测试数: 17
错误测试数: 7
尝试通过率: 66.7%
不稳定测试: 3…
输出令牌: 19,348
推理令牌: 0
响应时间:平均 5.68s · 总计 96.58s · 最大 18.33s
|
||||||
| #30#30 | Claude Opus 4.6medium | 7.5… | Anthropic | $1.317… | 20.87s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 额外格式: 4 答案错误: 2 响应时间(平均)20.87s 响应时间(最大)83.40s 响应时间(总计)208.73s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 68.6%
不稳定测试: 2…
输出令牌: 26,343
推理令牌: 17,434
响应时间:平均 20.87s · 总计 208.73s · 最大 83.40s
|
||||||
| #31#31 | GPT-5.4 Nanomedium | 7.4… | OpenAI | $0.077… | 11.08s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 3 响应时间(平均)11.08s 响应时间(最大)94.06s 响应时间(总计)188.39s … |
|
查看模型卡片
总测试数: 17
错误测试数: 7
尝试通过率: 66.7%
不稳定测试: 2…
输出令牌: 2,474
推理令牌: 54,516
响应时间:平均 11.08s · 总计 188.39s · 最大 94.06s
|
||||||
| #32#32 | Seed-2.0-Minimedium | 7.3… | Bytedance Seed | $0.029… | 60.58s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 4 答案错误: 2 未遵循指令: 1 响应时间(平均)60.58s 响应时间(最大)262.83s 响应时间(总计)848.16s … |
|
查看模型卡片
总测试数: 17
错误测试数: 7
尝试通过率: 64.7%
不稳定测试: 2…
输出令牌: 1,971
推理令牌: 58,624
响应时间:平均 60.58s · 总计 848.16s · 最大 262.83s
|
||||||
| #33#33 | GPT-5.2medium | 7.3… | OpenAI | $0.314… | 13.93s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 答案错误: 2 无答案: 1 超时: 1 响应时间(平均)13.93s 响应时间(最大)77.80s 响应时间(总计)139.29s … |
|
查看模型卡片
总测试数: 17
错误测试数: 7
尝试通过率: 70.6%
不稳定测试: 4…
输出令牌: 2,238
推理令牌: 16,811
响应时间:平均 13.93s · 总计 139.29s · 最大 77.80s
|
||||||
| #34#34 | Qwen3.5-35B-A3Bmedium | 7.3… | Qwen | $0.349… | 42.48s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 4 答案错误: 2 API 错误: 1 无答案: 1 响应时间(平均)42.48s 响应时间(最大)106.00s 响应时间(总计)722.12s … |
|
查看模型卡片
总测试数: 17
错误测试数: 8
尝试通过率: 78.4%
不稳定测试: 7…
输出令牌: 5,864
推理令牌: 175,683
响应时间:平均 42.48s · 总计 722.12s · 最大 106.00s
|
||||||
| #35#35 | Claude Sonnet 4.6none | 7.3… | Anthropic | $0.252… | 5.12s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 额外格式: 3 答案错误: 3 未遵循指令: 1 响应时间(平均)5.12s 响应时间(最大)23.84s 响应时间(总计)51.16s … |
|
查看模型卡片
总测试数: 17
错误测试数: 7
尝试通过率: 62.8%
不稳定测试: 1…
输出令牌: 6,910
推理令牌: 0
响应时间:平均 5.12s · 总计 51.16s · 最大 23.84s
|
||||||
| #36#36 | Kimi K2.5medium | 7.2… | Moonshot AI | $0.201… | 64.59s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 2 无答案: 1 超时: 1 响应时间(平均)64.59s 响应时间(最大)137.29s 响应时间(总计)645.93s … |
|
查看模型卡片
总测试数: 17
错误测试数: 8
尝试通过率: 72.6%
不稳定测试: 6…
输出令牌: 40,907
推理令牌: 75,121
响应时间:平均 64.59s · 总计 645.93s · 最大 137.29s
|
||||||
| #37#37 | GPT-5.4 Minimedium | 7.1… | OpenAI | $0.289… | 15.66s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 5 答案错误: 4 响应时间(平均)15.66s 响应时间(最大)102.91s 响应时间(总计)266.14s … |
|
查看模型卡片
总测试数: 17
错误测试数: 9
尝试通过率: 68.6%
不稳定测试: 6…
输出令牌: 1,708
推理令牌: 58,019
响应时间:平均 15.66s · 总计 266.14s · 最大 102.91s
|
||||||
| #38#38 | Hunter Alphamedium | 7.0… | Openrouter | $0.000… | 10.33s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 2 超时: 2 额外格式: 1 响应时间(平均)10.33s 响应时间(最大)30.53s 响应时间(总计)175.60s … |
|
查看模型卡片
总测试数: 17
错误测试数: 9
尝试通过率: 68.6%
不稳定测试: 6…
输出令牌: 4,724
推理令牌: 17,921
响应时间:平均 10.33s · 总计 175.60s · 最大 30.53s
|
||||||
| #39#39 | Grok 4.1 Fastmedium | 6.9… | X AI | $0.052… | 23.91s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 答案错误: 3 无答案: 1 超时: 1 响应时间(平均)23.91s 响应时间(最大)121.79s 响应时间(总计)239.09s … |
|
查看模型卡片
总测试数: 17
错误测试数: 8
尝试通过率: 66.7%
不稳定测试: 5…
输出令牌: 1,189
推理令牌: 84,595
响应时间:平均 23.91s · 总计 239.09s · 最大 121.79s
|
||||||
| #40#40 | Nemotron 3 Supermedium | 6.9… | NVIDIA | $0.000… | 19.06s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 4 答案错误: 3 超时: 1 响应时间(平均)19.06s 响应时间(最大)87.80s 响应时间(总计)305.04s … |
|
查看模型卡片
总测试数: 17
错误测试数: 8
尝试通过率: 58.8%
不稳定测试: 3…
输出令牌: 11,947
推理令牌: 29,768
响应时间:平均 19.06s · 总计 305.04s · 最大 87.80s
|
||||||
| #41#41 | GPT-5 Minimedium | 6.8… | OpenAI | $0.118… | 24.02s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 4 答案错误: 4 超时: 1 响应时间(平均)24.02s 响应时间(最大)88.15s 响应时间(总计)408.39s … |
|
查看模型卡片
总测试数: 17
错误测试数: 9
尝试通过率: 58.8%
不稳定测试: 3…
输出令牌: 5,896
推理令牌: 49,322
响应时间:平均 24.02s · 总计 408.39s · 最大 88.15s
|
||||||
| #42#42 | Qwen3.5 Plus 2026-02-15none | 6.8… | Qwen | $0.016… | 2.51s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 响应时间(平均)2.51s 响应时间(最大)6.65s 响应时间(总计)27.60s … |
|
查看模型卡片
总测试数: 17
错误测试数: 8
尝试通过率: 54.9%
不稳定测试: 1…
输出令牌: 2,018
推理令牌: 0
响应时间:平均 2.51s · 总计 27.60s · 最大 6.65s
|
||||||
| #43#43 | GLM 5none | 6.7… | Z.ai | $0.019… | 3.77s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 响应时间(平均)3.77s 响应时间(最大)11.07s 响应时间(总计)37.66s … |
|
查看模型卡片
总测试数: 17
错误测试数: 8
尝试通过率: 52.9%
不稳定测试: 0…
输出令牌: 1,551
推理令牌: 0
响应时间:平均 3.77s · 总计 37.66s · 最大 11.07s
|
||||||
| #44#44 | MiMo-V2-Omninone | 6.4… | Xiaomi | $0.006… | 2.01s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 7 未遵循指令: 2 响应时间(平均)2.01s 响应时间(最大)6.81s 响应时间(总计)34.09s … |
|
查看模型卡片
总测试数: 17
错误测试数: 9
尝试通过率: 47.1%
不稳定测试: 0…
输出令牌: 469
推理令牌: 0
响应时间:平均 2.01s · 总计 34.09s · 最大 6.81s
|
||||||
| #45#45 | DeepSeek V3.2none | 6.4… | DeepSeek | $0.016… | 12.35s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 7 额外格式: 2 无效工具调用: 1 响应时间(平均)12.35s 响应时间(最大)115.89s 响应时间(总计)209.94s … |
|
查看模型卡片
总测试数: 17
错误测试数: 10
尝试通过率: 51.0%
不稳定测试: 3…
输出令牌: 7,831
推理令牌: 0
响应时间:平均 12.35s · 总计 209.94s · 最大 115.89s
|
||||||
| #46#46 | Mercury 2medium | 6.3… | Inception | $0.045… | 2.25s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 6 未遵循指令: 4 响应时间(平均)2.25s 响应时间(最大)14.63s 响应时间(总计)35.99s … |
|
查看模型卡片
总测试数: 17
错误测试数: 10
尝试通过率: 51.0%
不稳定测试: 3…
输出令牌: 3,723
推理令牌: 46,120
响应时间:平均 2.25s · 总计 35.99s · 最大 14.63s
|
||||||
| #47#47 | GPT-5 Nanomedium | 6.2… | OpenAI | $0.061… | 44.47s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 6 未遵循指令: 3 超时: 1 响应时间(平均)44.47s 响应时间(最大)204.02s 响应时间(总计)444.74s … |
|
查看模型卡片
总测试数: 17
错误测试数: 10
尝试通过率: 58.8%
不稳定测试: 7…
输出令牌: 4,500
推理令牌: 143,296
响应时间:平均 44.47s · 总计 444.74s · 最大 204.02s
|
||||||
| #48#48 | Grok 4.20 Multi-Agent Betamedium | 6.2… | X AI | $4.978… | 8.64s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 4 答案错误: 3 API 错误: 2 额外格式: 2 响应时间(平均)8.64s 响应时间(最大)35.28s 响应时间(总计)129.64s … |
|
查看模型卡片
总测试数: 17
错误测试数: 11
尝试通过率: 54.9%
不稳定测试: 6…
输出令牌: 298,948
推理令牌: 296,529
响应时间:平均 8.64s · 总计 129.64s · 最大 35.28s
|
||||||
| #49#49 | Qwen3.5-Flashnone | 6.0… | Qwen | $0.006… | 3.36s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 1 响应时间(平均)3.36s 响应时间(最大)13.73s 响应时间(总计)57.15s … |
|
查看模型卡片
总测试数: 17
错误测试数: 10
尝试通过率: 43.1%
不稳定测试: 1…
输出令牌: 3,777
推理令牌: 0
响应时间:平均 3.36s · 总计 57.15s · 最大 13.73s
|
||||||
| #50#50 | gpt-oss-120bmedium | 6.0… | OpenAI | $0.010… | 15.05s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 6 未遵循指令: 4 响应时间(平均)15.05s 响应时间(最大)50.92s 响应时间(总计)150.55s … |
|
查看模型卡片
总测试数: 17
错误测试数: 10
尝试通过率: 51.0%
不稳定测试: 5…
输出令牌: 13,265
推理令牌: 34,330
响应时间:平均 15.05s · 总计 150.55s · 最大 50.92s
|
||||||
| #51#51 | Seed-2.0-Litenone | 6.0… | Bytedance Seed | $0.016… | 2.40s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 响应时间(平均)2.40s 响应时间(最大)6.70s 响应时间(总计)40.85s … |
|
查看模型卡片
总测试数: 17
错误测试数: 10
尝试通过率: 52.9%
不稳定测试: 5…
输出令牌: 2,749
推理令牌: 0
响应时间:平均 2.40s · 总计 40.85s · 最大 6.70s
|
||||||
| #52#52 | Gemini 2.5 Flashnone | 5.9… | $0.012… | 888ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 1 响应时间(平均)888ms 响应时间(最大)4.39s 响应时间(总计)15.10s … | |
|
查看模型卡片
总测试数: 17
错误测试数: 11
尝试通过率: 41.2%
不稳定测试: 2…
输出令牌: 1,273
推理令牌: 0
响应时间:平均 888ms · 总计 15.10s · 最大 4.39s
|
||||||
| #53#53 | Qwen3.5-35B-A3Bnone | 5.9… | Qwen | $0.015… | 3.89s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 响应时间(平均)3.89s 响应时间(最大)47.43s 响应时间(总计)66.07s … |
|
查看模型卡片
总测试数: 17
错误测试数: 11
尝试通过率: 47.1%
不稳定测试: 3…
输出令牌: 3,761
推理令牌: 0
响应时间:平均 3.89s · 总计 66.07s · 最大 47.43s
|
||||||
| #54#54 | MiniMax M2.5medium | 5.9… | Minimax | $0.250… | 39.65s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 未遵循指令: 3 超时: 3 无效工具调用: 1 响应时间(平均)39.65s 响应时间(最大)237.27s 响应时间(总计)396.47s … |
|
查看模型卡片
总测试数: 17
错误测试数: 12
尝试通过率: 60.8%
不稳定测试: 10…
输出令牌: 107,044
推理令牌: 206,422
响应时间:平均 39.65s · 总计 396.47s · 最大 237.27s
|
||||||
| #55#55 | Hunter Alphanone | 5.9… | Openrouter | $0.000… | 4.58s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 响应时间(平均)4.58s 响应时间(最大)15.17s 响应时间(总计)77.92s … |
|
查看模型卡片
总测试数: 17
错误测试数: 11
尝试通过率: 49.0%
不稳定测试: 4…
输出令牌: 2,278
推理令牌: 0
响应时间:平均 4.58s · 总计 77.92s · 最大 15.17s
|
||||||
| #56#56 | Qwen3.5-122B-A10Bnone | 5.8… | Qwen | $0.020… | 3.71s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 1 响应时间(平均)3.71s 响应时间(最大)46.00s 响应时间(总计)63.06s … |
|
查看模型卡片
总测试数: 17
错误测试数: 11
尝试通过率: 37.3%
不稳定测试: 1…
输出令牌: 2,682
推理令牌: 0
响应时间:平均 3.71s · 总计 63.06s · 最大 46.00s
|
||||||
| #57#57 | MiMo-V2-Pronone | 5.8… | Xiaomi | $0.040… | 2.31s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 响应时间(平均)2.31s 响应时间(最大)6.58s 响应时间(总计)39.25s … |
|
查看模型卡片
总测试数: 17
错误测试数: 11
尝试通过率: 45.1%
不稳定测试: 3…
输出令牌: 1,721
推理令牌: 0
响应时间:平均 2.31s · 总计 39.25s · 最大 6.58s
|
||||||
| #58#58 | GPT-5.4none | 5.6… | OpenAI | $0.095… | 1.43s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 1 响应时间(平均)1.43s 响应时间(最大)2.89s 响应时间(总计)24.27s … |
|
查看模型卡片
总测试数: 17
错误测试数: 11
尝试通过率: 39.2%
不稳定测试: 2…
输出令牌: 1,837
推理令牌: 0
响应时间:平均 1.43s · 总计 24.27s · 最大 2.89s
|
||||||
| #59#59 | Qwen3.5-27Bnone | 5.6… | Qwen | $0.016… | 1.70s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 2 响应时间(平均)1.70s 响应时间(最大)9.39s 响应时间(总计)28.82s … |
|
查看模型卡片
总测试数: 17
错误测试数: 12
尝试通过率: 35.3%
不稳定测试: 2…
输出令牌: 3,164
推理令牌: 0
响应时间:平均 1.70s · 总计 28.82s · 最大 9.39s
|
||||||
| #60#60 | Mistral Small 4medium | 5.6… | Mistral | $0.026… | 4.18s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 7 未遵循指令: 3 API 错误: 2 响应时间(平均)4.18s 响应时间(最大)25.25s 响应时间(总计)71.03s … |
|
查看模型卡片
总测试数: 17
错误测试数: 12
尝试通过率: 49.0%
不稳定测试: 6…
输出令牌: 12,288
推理令牌: 28,112
响应时间:平均 4.18s · 总计 71.03s · 最大 25.25s
|
||||||
| #61#61 | GLM 5 Turbonone | 5.6… | Z.ai | $0.029… | 2.89s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 响应时间(平均)2.89s 响应时间(最大)8.21s 响应时间(总计)49.05s … |
|
查看模型卡片
总测试数: 17
错误测试数: 11
尝试通过率: 37.3%
不稳定测试: 1…
输出令牌: 1,270
推理令牌: 0
响应时间:平均 2.89s · 总计 49.05s · 最大 8.21s
|
||||||
| #62#62 | GLM 4.7 Flashnone | 5.6… | Z.ai | $0.003… | 3.13s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 无效工具调用: 1 响应时间(平均)3.13s 响应时间(最大)7.05s 响应时间(总计)31.33s … |
|
查看模型卡片
总测试数: 17
错误测试数: 12
尝试通过率: 39.2%
不稳定测试: 3…
输出令牌: 1,863
推理令牌: 0
响应时间:平均 3.13s · 总计 31.33s · 最大 7.05s
|
||||||
| #63#63 | Grok 4.20 Betanone | 5.3… | X AI | $0.090… | 1.19s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 3 无效工具调用: 1 响应时间(平均)1.19s 响应时间(最大)6.48s 响应时间(总计)20.22s … |
|
查看模型卡片
总测试数: 17
错误测试数: 13
尝试通过率: 31.4%
不稳定测试: 2…
输出令牌: 1,517
推理令牌: 0
响应时间:平均 1.19s · 总计 20.22s · 最大 6.48s
|
||||||
| #64#64 | Kimi K2.5none | 5.3… | Moonshot AI | $0.015… | 10.83s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 12 响应时间(平均)10.83s 响应时间(最大)42.13s 响应时间(总计)108.27s … |
|
查看模型卡片
总测试数: 17
错误测试数: 12
尝试通过率: 37.3%
不稳定测试: 3…
输出令牌: 2,010
推理令牌: 0
响应时间:平均 10.83s · 总计 108.27s · 最大 42.13s
|
||||||
| #65#65 | Trinity Large Previewnone | 5.3… | Arcee AI | $0.000… | 3.04s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 2 响应时间(平均)3.04s 响应时间(最大)8.91s 响应时间(总计)51.75s … |
|
查看模型卡片
总测试数: 17
错误测试数: 12
尝试通过率: 31.4%
不稳定测试: 1…
输出令牌: 1,843
推理令牌: 0
响应时间:平均 3.04s · 总计 51.75s · 最大 8.91s
|
||||||
| #66#66 | Mistral Small 4none | 5.3… | Mistral | $0.006… | 629ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 2 响应时间(平均)629ms 响应时间(最大)1.72s 响应时间(总计)10.70s … |
|
查看模型卡片
总测试数: 17
错误测试数: 12
尝试通过率: 33.3%
不稳定测试: 1…
输出令牌: 1,624
推理令牌: 0
响应时间:平均 629ms · 总计 10.70s · 最大 1.72s
|
||||||
| #67#67 | Nemotron 3 Supernone | 5.2… | NVIDIA | $0.000… | 8.86s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 4 响应时间(平均)8.86s 响应时间(最大)24.97s 响应时间(总计)150.70s … |
|
查看模型卡片
总测试数: 17
错误测试数: 13
尝试通过率: 35.3%
不稳定测试: 3…
输出令牌: 4,225
推理令牌: 0
响应时间:平均 8.86s · 总计 150.70s · 最大 24.97s
|
||||||
| #68#68 | GPT-4o-mininone | 5.0… | OpenAI | $0.005… | 1.94s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 12 未遵循指令: 1 响应时间(平均)1.94s 响应时间(最大)7.58s 响应时间(总计)19.44s … |
|
查看模型卡片
总测试数: 17
错误测试数: 13
尝试通过率: 23.5%
不稳定测试: 0…
输出令牌: 1,600
推理令牌: 0
响应时间:平均 1.94s · 总计 19.44s · 最大 7.58s
|
||||||
| #69#69 | MiniMax M2.7medium | 5.0… | Minimax | $0.072… | 27.32s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 6 答案错误: 5 超时: 2 无效工具调用: 1 响应时间(平均)27.32s 响应时间(最大)117.04s 响应时间(总计)437.10s … |
|
查看模型卡片
总测试数: 17
错误测试数: 14
尝试通过率: 49.0%
不稳定测试: 10…
输出令牌: 4,517
推理令牌: 47,612
响应时间:平均 27.32s · 总计 437.10s · 最大 117.04s
|
||||||
| #70#70 | Qwen3 Coder Nextnone | 5.0… | Qwen | $0.007… | 10.82s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 11 额外格式: 1 未遵循指令: 1 响应时间(平均)10.82s 响应时间(最大)45.14s 响应时间(总计)118.99s … |
|
查看模型卡片
总测试数: 17
错误测试数: 13
尝试通过率: 23.5%
不稳定测试: 0…
输出令牌: 3,032
推理令牌: 0
响应时间:平均 10.82s · 总计 118.99s · 最大 45.14s
|
||||||
| #71#71 | Mercury 2none | 4.8… | Inception | $0.007… | 592ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 12 未遵循指令: 1 响应时间(平均)592ms 响应时间(最大)1.27s 响应时间(总计)10.07s … |
|
查看模型卡片
总测试数: 17
错误测试数: 13
尝试通过率: 29.4%
不稳定测试: 2…
输出令牌: 1,315
推理令牌: 0
响应时间:平均 592ms · 总计 10.07s · 最大 1.27s
|
||||||
| #72#72 | GPT-5.4 Mininone | 4.8… | OpenAI | $0.030… | 1.17s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 3 响应时间(平均)1.17s 响应时间(最大)2.52s 响应时间(总计)19.82s … |
|
查看模型卡片
总测试数: 17
错误测试数: 13
尝试通过率: 31.4%
不稳定测试: 3…
输出令牌: 2,085
推理令牌: 0
响应时间:平均 1.17s · 总计 19.82s · 最大 2.52s
|
||||||
| #73#73 | Qwen3.5-9Bnone | 4.8… | Qwen | $0.005… | 1.22s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 3 无效工具调用: 1 响应时间(平均)1.22s 响应时间(最大)5.91s 响应时间(总计)20.74s … |
|
查看模型卡片
总测试数: 17
错误测试数: 13
尝试通过率: 23.5%
不稳定测试: 0…
输出令牌: 2,945
推理令牌: 0
响应时间:平均 1.22s · 总计 20.74s · 最大 5.91s
|
||||||
| #74#74 | Qwen3 Coder Nextmedium | 4.8… | Qwen | $0.007… | 11.57s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 5 响应时间(平均)11.57s 响应时间(最大)81.80s 响应时间(总计)127.32s … |
|
查看模型卡片
总测试数: 17
错误测试数: 14
尝试通过率: 25.5%
不稳定测试: 2…
输出令牌: 2,941
推理令牌: 0
响应时间:平均 11.57s · 总计 127.32s · 最大 81.80s
|
||||||
| #75#75 | GLM 4.7 Flashmedium | 4.7… | Z.ai | $0.042… | 33.44s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 2 无答案: 2 无效工具调用: 1 响应时间(平均)33.44s 响应时间(最大)174.55s 响应时间(总计)334.39s … |
|
查看模型卡片
总测试数: 17
错误测试数: 13
尝试通过率: 39.2%
不稳定测试: 7…
输出令牌: 38,719
推理令牌: 65,465
响应时间:平均 33.44s · 总计 334.39s · 最大 174.55s
|
||||||
| #76#76 | Qwen3.5-9Bmedium | 4.5… | Qwen | $0.024… | 69.21s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 11 额外格式: 1 未遵循指令: 1 答案错误: 1 响应时间(平均)69.21s 响应时间(最大)226.38s 响应时间(总计)968.99s … |
|
查看模型卡片
总测试数: 17
错误测试数: 14
尝试通过率: 35.3%
不稳定测试: 6…
输出令牌: 18,141
推理令牌: 141,204
响应时间:平均 69.21s · 总计 968.99s · 最大 226.38s
|
||||||
| #77#77 | Grok 4.1 Fastnone | 4.4… | X AI | $0.008… | 1.76s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 12 未遵循指令: 2 响应时间(平均)1.76s 响应时间(最大)5.51s 响应时间(总计)17.56s … |
|
查看模型卡片
总测试数: 17
错误测试数: 14
尝试通过率: 23.5%
不稳定测试: 2…
输出令牌: 1,154
推理令牌: 0
响应时间:平均 1.76s · 总计 17.56s · 最大 5.51s
|
||||||
| #78#78 | MiMo-V2-Flashnone | 4.4… | Xiaomi | $0.023… | 2.79s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 11 API 错误: 1 额外格式: 1 未遵循指令: 1 响应时间(平均)2.79s 响应时间(最大)19.68s 响应时间(总计)36.29s … |
|
查看模型卡片
总测试数: 17
错误测试数: 14
尝试通过率: 27.5%
不稳定测试: 4…
输出令牌: 67,796
推理令牌: 0
响应时间:平均 2.79s · 总计 36.29s · 最大 19.68s
|
||||||
| #79#79 | GPT-5.4 Nanonone | 4.3… | OpenAI | $0.009… | 1.39s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 12 未遵循指令: 3 响应时间(平均)1.39s 响应时间(最大)3.84s 响应时间(总计)23.70s … |
|
查看模型卡片
总测试数: 17
错误测试数: 15
尝试通过率: 29.4%
不稳定测试: 6…
输出令牌: 2,185
推理令牌: 0
响应时间:平均 1.39s · 总计 23.70s · 最大 3.84s
|
||||||
| #80#80 | LFM2-24B-A2Bnone已归档模型:该模型将不再更新,也不会在新测试中继续测试。 | 4.1… | Liquid | $0.001… | 811ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 API 错误: 4 未遵循指令: 2 响应时间(平均)811ms 响应时间(最大)2.88s 响应时间(总计)11.35s … |
|
查看模型卡片
总测试数: 16
错误测试数: 15
尝试通过率: 14.6%
不稳定测试: 2…
输出令牌: 1,185
推理令牌: 0
响应时间:平均 811ms · 总计 11.35s · 最大 2.88s
|
||||||
快速对比
Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro PreviewmediumGemini 3 Flash PreviewmediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewmediumvsGemini 3 PRO PreviewmediumGemini 3 Flash PreviewmediumvsSeed-2.0-LitemediumGemini 3 Flash PreviewmediumvsQwen3.6 Plus Previewmedium免费可用Gemini 3 Flash PreviewmediumvsGPT-5.3-CodexmediumGemini 3.1 Pro PreviewmediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewlowvsGemini 3 PRO PreviewmediumGemini 3 PRO PreviewmediumvsSeed-2.0-LitemediumSeed-2.0-LitemediumvsQwen3.6 Plus Previewmedium免费可用Qwen3.6 Plus Previewmedium免费可用vsGPT-5.3-Codexmedium