AI BENCHY
AI 基准排行榜
基准结果生成自 AI BENCHY 测试套件,时间:: 2026-04-16
已评估模型: 97
97/97
筛选模型
没有模型匹配当前搜索和筛选条件。
| 排名 | 模型 | 分数 所有基准测试的平均分。 | 公司 | 总成本 | 响应时间(平均) 响应时间(平均) | 测试正确 显示完全通过的测试数量(该测试所有运行都通过)。 |
|---|---|---|---|---|---|---|
| #97#97 | Step 3.5 Flashnone | 3.0… | Stepfun | $0.000… | 0ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 API 错误: 1 响应时间(平均)0ms 响应时间(最大)0ms 响应时间(总计)0ms … |
|
查看模型卡片
总测试数: 1
错误测试数: 1
尝试通过率: 0.0%
不稳定测试: 0…
输出令牌: 0
推理令牌: 0
响应时间:平均 0ms · 总计 0ms · 最大 0ms
|
||||||
| #89#89 | Mercury 2none | 4.8… | Inception | $0.007… | 613ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 13 未遵循指令: 1 响应时间(平均)613ms 响应时间(最大)1.27s 响应时间(总计)11.04s … |
|
查看模型卡片
总测试数: 18
错误测试数: 14
尝试通过率: 27.8%
不稳定测试: 2…
输出令牌: 1,625
推理令牌: 0
响应时间:平均 613ms · 总计 11.04s · 最大 1.27s
|
||||||
| #81#81 | Mistral Small 4none | 5.2… | Mistral | $0.006… | 665ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 11 未遵循指令: 2 响应时间(平均)665ms 响应时间(最大)1.72s 响应时间(总计)11.97s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 31.5%
不稳定测试: 1…
输出令牌: 2,207
推理令牌: 0
响应时间:平均 665ms · 总计 11.97s · 最大 1.72s
|
||||||
| #96#96 | LFM2-24B-A2Bnone已归档模型:该模型将不再更新,也不会在新测试中继续测试。 | 4.1… | Liquid | $0.001… | 811ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 API 错误: 4 未遵循指令: 2 响应时间(平均)811ms 响应时间(最大)2.88s 响应时间(总计)11.35s … |
|
查看模型卡片
总测试数: 16
错误测试数: 15
尝试通过率: 14.6%
不稳定测试: 2…
输出令牌: 1,185
推理令牌: 0
响应时间:平均 811ms · 总计 11.35s · 最大 2.88s
|
||||||
| #61#61 | Gemini 2.5 Flashnone | 6.2… | $0.013… | 903ms… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 1 响应时间(平均)903ms 响应时间(最大)4.39s 响应时间(总计)16.26s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 11
尝试通过率: 44.4%
不稳定测试: 2…
输出令牌: 1,726
推理令牌: 0
响应时间:平均 903ms · 总计 16.26s · 最大 4.39s
|
||||||
| #80#80 | Grok 4.20none | 5.2… | X AI | $0.095… | 1.11s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 额外格式: 1 无效工具调用: 1 响应时间(平均)1.11s 响应时间(最大)6.04s 响应时间(总计)20.02s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 29.6%
不稳定测试: 1…
输出令牌: 1,967
推理令牌: 0
响应时间:平均 1.11s · 总计 20.02s · 最大 6.04s
|
||||||
| #84#84 | GPT-5.4 Mininone | 5.1… | OpenAI | $0.032… | 1.17s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 3 响应时间(平均)1.17s 响应时间(最大)2.52s 响应时间(总计)21.01s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 35.2%
不稳定测试: 3…
输出令牌: 2,418
推理令牌: 0
响应时间:平均 1.17s · 总计 21.01s · 最大 2.52s
|
||||||
| #77#77 | Grok 4.20 Betanone已归档模型:该模型将不再更新,也不会在新测试中继续测试。 | 5.3… | X AI | $0.091… | 1.19s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 3 无效工具调用: 1 响应时间(平均)1.19s 响应时间(最大)6.48s 响应时间(总计)21.37s … |
|
查看模型卡片
总测试数: 18
错误测试数: 14
尝试通过率: 29.6%
不稳定测试: 2…
输出令牌: 1,591
推理令牌: 0
响应时间:平均 1.19s · 总计 21.37s · 最大 6.48s
|
||||||
| #83#83 | Elephantnone | 5.2… | Openrouter | $0.000… | 1.23s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 3 无效工具调用: 1 响应时间(平均)1.23s 响应时间(最大)3.81s 响应时间(总计)22.16s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 31.5%
不稳定测试: 1…
输出令牌: 2,573
推理令牌: 0
响应时间:平均 1.23s · 总计 22.16s · 最大 3.81s
|
||||||
| #79#79 | Elephantmedium | 5.2… | Openrouter | $0.000… | 1.27s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 3 无效工具调用: 1 响应时间(平均)1.27s 响应时间(最大)3.70s 响应时间(总计)22.82s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 29.6%
不稳定测试: 1…
输出令牌: 2,596
推理令牌: 0
响应时间:平均 1.27s · 总计 22.82s · 最大 3.70s
|
||||||
| #29#29 | Gemini 3.1 Flash Lite Previewnone | 7.9… | $0.016… | 1.30s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 2 响应时间(平均)1.30s 响应时间(最大)3.39s 响应时间(总计)23.42s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 6
尝试通过率: 70.4%
不稳定测试: 1…
输出令牌: 5,361
推理令牌: 0
响应时间:平均 1.30s · 总计 23.42s · 最大 3.39s
|
||||||
| #94#94 | GPT-5.4 Nanonone | 4.5… | OpenAI | $0.009… | 1.40s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 13 未遵循指令: 3 响应时间(平均)1.40s 响应时间(最大)3.84s 响应时间(总计)25.14s … |
|
查看模型卡片
总测试数: 18
错误测试数: 16
尝试通过率: 31.5%
不稳定测试: 7…
输出令牌: 2,762
推理令牌: 0
响应时间:平均 1.40s · 总计 25.14s · 最大 3.84s
|
||||||
| #88#88 | Qwen3.5-9Bnone | 4.8… | Qwen | $0.005… | 1.47s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 3 无效工具调用: 1 响应时间(平均)1.47s 响应时间(最大)5.91s 响应时间(总计)26.43s … |
|
查看模型卡片
总测试数: 18
错误测试数: 14
尝试通过率: 24.1%
不稳定测试: 1…
输出令牌: 3,951
推理令牌: 0
响应时间:平均 1.47s · 总计 26.43s · 最大 5.91s
|
||||||
| #65#65 | GPT-5.4none | 5.9… | OpenAI | $0.104… | 1.51s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 1 响应时间(平均)1.51s 响应时间(最大)2.95s 响应时间(总计)27.21s … |
|
查看模型卡片
总测试数: 18
错误测试数: 11
尝试通过率: 42.6%
不稳定测试: 2…
输出令牌: 2,317
推理令牌: 0
响应时间:平均 1.51s · 总计 27.21s · 最大 2.95s
|
||||||
| #21#21 | Gemini 3 Flash Previewnone | 8.1… | $0.021… | 1.65s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 响应时间(平均)1.65s 响应时间(最大)3.56s 响应时间(总计)18.20s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 77.8%
不稳定测试: 2…
输出令牌: 1,840
推理令牌: 0
响应时间:平均 1.65s · 总计 18.20s · 最大 3.56s
|
||||||
| #66#66 | Qwen3.5-27Bnone | 5.9… | Qwen | $0.016… | 1.74s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 2 响应时间(平均)1.74s 响应时间(最大)9.39s 响应时间(总计)31.32s … |
|
查看模型卡片
总测试数: 18
错误测试数: 12
尝试通过率: 38.9%
不稳定测试: 2…
输出令牌: 3,545
推理令牌: 0
响应时间:平均 1.74s · 总计 31.32s · 最大 9.39s
|
||||||
| #93#93 | Grok 4.1 Fastnone | 4.5… | X AI | $0.009… | 1.76s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 13 未遵循指令: 2 响应时间(平均)1.76s 响应时间(最大)5.51s 响应时间(总计)19.35s … |
|
查看模型卡片
总测试数: 18
错误测试数: 15
尝试通过率: 24.1%
不稳定测试: 3…
输出令牌: 1,721
推理令牌: 0
响应时间:平均 1.76s · 总计 19.35s · 最大 5.51s
|
||||||
| #54#54 | MiMo-V2-Omninone | 6.5… | Xiaomi | $0.007… | 1.99s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 2 响应时间(平均)1.99s 响应时间(最大)6.81s 响应时间(总计)35.81s … |
|
查看模型卡片
总测试数: 18
错误测试数: 10
尝试通过率: 44.4%
不稳定测试: 0…
输出令牌: 868
推理令牌: 0
响应时间:平均 1.99s · 总计 35.81s · 最大 6.81s
|
||||||
| #87#87 | GPT-4o-mininone | 4.9… | OpenAI | $0.005… | 2.00s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 13 未遵循指令: 1 响应时间(平均)2.00s 响应时间(最大)7.58s 响应时间(总计)21.99s … |
|
查看模型卡片
总测试数: 18
错误测试数: 14
尝试通过率: 22.2%
不稳定测试: 0…
输出令牌: 1,947
推理令牌: 0
响应时间:平均 2.00s · 总计 21.99s · 最大 7.58s
|
||||||
| #53#53 | Mercury 2medium | 6.5… | Inception | $0.047… | 2.21s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 6 未遵循指令: 4 响应时间(平均)2.21s 响应时间(最大)14.63s 响应时间(总计)37.51s … |
|
查看模型卡片
总测试数: 18
错误测试数: 10
尝试通过率: 53.7%
不稳定测试: 3…
输出令牌: 3,972
推理令牌: 48,333
响应时间:平均 2.21s · 总计 37.51s · 最大 14.63s
|
||||||
| #64#64 | MiMo-V2-Pronone | 6.0… | Xiaomi | $0.043… | 2.39s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 响应时间(平均)2.39s 响应时间(最大)6.58s 响应时间(总计)43.06s … |
|
查看模型卡片
总测试数: 18
错误测试数: 11
尝试通过率: 48.2%
不稳定测试: 3…
输出令牌: 2,320
推理令牌: 0
响应时间:平均 2.39s · 总计 43.06s · 最大 6.58s
|
||||||
| #60#60 | Seed-2.0-Litenone | 6.2… | Bytedance Seed | $0.016… | 2.53s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 响应时间(平均)2.53s 响应时间(最大)6.70s 响应时间(总计)45.46s … |
|
查看模型卡片
总测试数: 18
错误测试数: 10
尝试通过率: 55.6%
不稳定测试: 5…
输出令牌: 3,129
推理令牌: 0
响应时间:平均 2.53s · 总计 45.46s · 最大 6.70s
|
||||||
| #48#48 | Qwen3.5 Plus 2026-02-15none | 6.8… | Qwen | $0.017… | 2.60s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 响应时间(平均)2.60s 响应时间(最大)6.65s 响应时间(总计)31.23s … |
|
查看模型卡片
总测试数: 18
错误测试数: 9
尝试通过率: 53.7%
不稳定测试: 2…
输出令牌: 2,461
推理令牌: 0
响应时间:平均 2.60s · 总计 31.23s · 最大 6.65s
|
||||||
| #92#92 | MiMo-V2-Flashnone | 4.5… | Xiaomi | $0.023… | 2.79s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 12 API 错误: 1 额外格式: 1 未遵循指令: 1 响应时间(平均)2.79s 响应时间(最大)19.68s 响应时间(总计)39.08s … |
|
查看模型卡片
总测试数: 18
错误测试数: 15
尝试通过率: 27.8%
不稳定测试: 5…
输出令牌: 68,522
推理令牌: 0
响应时间:平均 2.79s · 总计 39.08s · 最大 19.68s
|
||||||
| #75#75 | GLM 5 Turbonone | 5.5… | Z.ai | $0.032… | 2.94s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 2 响应时间(平均)2.94s 响应时间(最大)8.21s 响应时间(总计)52.98s … |
|
查看模型卡片
总测试数: 18
错误测试数: 12
尝试通过率: 37.0%
不稳定测试: 2…
输出令牌: 1,775
推理令牌: 0
响应时间:平均 2.94s · 总计 52.98s · 最大 8.21s
|
||||||
| #57#57 | GLM 5V Turbonone | 6.2… | Z.ai | $0.044… | 3.10s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 2 响应时间(平均)3.10s 响应时间(最大)6.51s 响应时间(总计)55.87s … |
|
查看模型卡片
总测试数: 18
错误测试数: 10
尝试通过率: 44.4%
不稳定测试: 0…
输出令牌: 1,724
推理令牌: 0
响应时间:平均 3.10s · 总计 55.87s · 最大 6.51s
|
||||||
| #4#4 | Claude Opus 4.7none | 9.2… | Anthropic | $0.505… | 3.13s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 2 响应时间(平均)3.13s 响应时间(最大)18.27s 响应时间(总计)56.33s … |
|
查看模型卡片
总测试数: 18
错误测试数: 2
尝试通过率: 88.9%
不稳定测试: 0…
输出令牌: 6,326
推理令牌: 0
响应时间:平均 3.13s · 总计 56.33s · 最大 18.27s
|
||||||
| #22#22 | Gemini 3.1 Flash Lite Previewlow | 8.1… | $0.022… | 3.22s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)3.22s 响应时间(最大)11.91s 响应时间(总计)58.00s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 72.2%
不稳定测试: 0…
输出令牌: 2,247
推理令牌: 8,058
响应时间:平均 3.22s · 总计 58.00s · 最大 11.91s
|
||||||
| #58#58 | Qwen3.5-Flashnone | 6.2… | Qwen | $0.006… | 3.25s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 1 响应时间(平均)3.25s 响应时间(最大)13.73s 响应时间(总计)58.44s … |
|
查看模型卡片
总测试数: 18
错误测试数: 10
尝试通过率: 46.3%
不稳定测试: 1…
输出令牌: 4,266
推理令牌: 0
响应时间:平均 3.25s · 总计 58.44s · 最大 13.73s
|
||||||
| #72#72 | GLM 4.7 Flashnone | 5.6… | Z.ai | $0.003… | 3.35s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 2 无效工具调用: 1 响应时间(平均)3.35s 响应时间(最大)7.05s 响应时间(总计)36.90s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 37.0%
不稳定测试: 3…
输出令牌: 2,489
推理令牌: 0
响应时间:平均 3.35s · 总计 36.90s · 最大 7.05s
|
||||||
| #3🥉 #3 | Claude Opus 4.7medium | 9.2… | Anthropic | $0.447… | 3.53s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 1 答案错误: 1 响应时间(平均)3.53s 响应时间(最大)21.45s 响应时间(总计)60.03s … |
|
查看模型卡片
总测试数: 18
错误测试数: 2
尝试通过率: 88.9%
不稳定测试: 0…
输出令牌: 5,375
推理令牌: 1,341
响应时间:平均 3.53s · 总计 60.03s · 最大 21.45s
|
||||||
| #68#68 | Qwen3.5-122B-A10Bnone | 5.7… | Qwen | $0.022… | 3.69s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 11 未遵循指令: 1 响应时间(平均)3.69s 响应时间(最大)46.00s 响应时间(总计)66.50s … |
|
查看模型卡片
总测试数: 18
错误测试数: 12
尝试通过率: 38.9%
不稳定测试: 2…
输出令牌: 3,341
推理令牌: 0
响应时间:平均 3.69s · 总计 66.50s · 最大 46.00s
|
||||||
| #17#17 | Gemini 3.1 Flash Lite Previewmedium | 8.2… | $0.055… | 3.74s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)3.74s 响应时间(最大)14.93s 响应时间(总计)67.31s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 72.2%
不稳定测试: 0…
输出令牌: 2,168
推理令牌: 29,030
响应时间:平均 3.74s · 总计 67.31s · 最大 14.93s
|
||||||
| #62#62 | Qwen3.5-35B-A3Bnone | 6.1… | Qwen | $0.016… | 3.82s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 响应时间(平均)3.82s 响应时间(最大)47.43s 响应时间(总计)68.74s … |
|
查看模型卡片
总测试数: 18
错误测试数: 11
尝试通过率: 50.0%
不稳定测试: 3…
输出令牌: 4,300
推理令牌: 0
响应时间:平均 3.82s · 总计 68.74s · 最大 47.43s
|
||||||
| #47#47 | Gemma 4 31Bnone | 6.9… | $0.003… | 4.02s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 API 错误: 2 未遵循指令: 1 响应时间(平均)4.02s 响应时间(最大)26.13s 响应时间(总计)64.33s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 8
尝试通过率: 55.6%
不稳定测试: 0…
输出令牌: 1,359
推理令牌: 0
响应时间:平均 4.02s · 总计 64.33s · 最大 26.13s
|
||||||
| #52#52 | GLM 5none | 6.6… | Z.ai | $0.020… | 4.23s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 响应时间(平均)4.23s 响应时间(最大)11.07s 响应时间(总计)46.51s … |
|
查看模型卡片
总测试数: 18
错误测试数: 9
尝试通过率: 51.9%
不稳定测试: 1…
输出令牌: 1,959
推理令牌: 0
响应时间:平均 4.23s · 总计 46.51s · 最大 11.07s
|
||||||
| #73#73 | GLM 5.1none | 5.6… | Z.ai | $0.053… | 4.33s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 2 无效工具调用: 1 响应时间(平均)4.33s 响应时间(最大)32.57s 响应时间(总计)78.02s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 37.0%
不稳定测试: 4…
输出令牌: 3,720
推理令牌: 0
响应时间:平均 4.33s · 总计 78.02s · 最大 32.57s
|
||||||
| #70#70 | Hunter Alphanone已归档模型:该模型将不再更新,也不会在新测试中继续测试。 | 5.7… | OpenRouter | $0.000… | 4.58s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 2 API 错误: 1 响应时间(平均)4.58s 响应时间(最大)15.17s 响应时间(总计)77.92s … |
|
查看模型卡片
总测试数: 18
错误测试数: 12
尝试通过率: 46.3%
不稳定测试: 4…
输出令牌: 2,278
推理令牌: 0
响应时间:平均 4.58s · 总计 77.92s · 最大 15.17s
|
||||||
| #41#41 | Claude Sonnet 4.6none | 7.4… | Anthropic | $0.262… | 4.98s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 额外格式: 3 答案错误: 3 未遵循指令: 1 响应时间(平均)4.98s 响应时间(最大)23.84s 响应时间(总计)54.83s … |
|
查看模型卡片
总测试数: 18
错误测试数: 7
尝试通过率: 64.8%
不稳定测试: 1…
输出令牌: 7,433
推理令牌: 0
响应时间:平均 4.98s · 总计 54.83s · 最大 23.84s
|
||||||
| #76#76 | Trinity Large Previewnone | 5.3… | Arcee AI | $0.000… | 5.07s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 11 未遵循指令: 2 响应时间(平均)5.07s 响应时间(最大)39.47s 响应时间(总计)91.23s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 29.6%
不稳定测试: 1…
输出令牌: 1,985
推理令牌: 0
响应时间:平均 5.07s · 总计 91.23s · 最大 39.47s
|
||||||
| #71#71 | Mistral Small 4medium | 5.7… | Mistral | $0.034… | 5.64s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 3 API 错误: 2 响应时间(平均)5.64s 响应时间(最大)30.49s 响应时间(总计)101.52s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 50.0%
不稳定测试: 7…
输出令牌: 15,084
推理令牌: 39,408
响应时间:平均 5.64s · 总计 101.52s · 最大 30.49s
|
||||||
| #35#35 | GPT-5.3 Chatnone | 7.7… | OpenAI | $0.340… | 5.88s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 未遵循指令: 2 响应时间(平均)5.88s 响应时间(最大)18.33s 响应时间(总计)105.90s … |
|
查看模型卡片
总测试数: 18
错误测试数: 7
尝试通过率: 68.5%
不稳定测试: 3…
输出令牌: 20,784
推理令牌: 0
响应时间:平均 5.88s · 总计 105.90s · 最大 18.33s
|
||||||
| #5#5 | Gemini 3 Flash Previewlow | 8.8… | $0.091… | 6.01s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 响应时间(平均)6.01s 响应时间(最大)14.72s 响应时间(总计)108.12s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 3
尝试通过率: 85.2%
不稳定测试: 1…
输出令牌: 2,018
推理令牌: 23,273
响应时间:平均 6.01s · 总计 108.12s · 最大 14.72s
|
||||||
| #59#59 | Gemma 4 26B A4Bnone | 6.2… | $0.005… | 6.59s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 7 未遵循指令: 3 超时: 1 响应时间(平均)6.59s 响应时间(最大)57.10s 响应时间(总计)118.61s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 11
尝试通过率: 48.2%
不稳定测试: 3…
输出令牌: 1,783
推理令牌: 0
响应时间:平均 6.59s · 总计 118.61s · 最大 57.10s
|
||||||
| #28#28 | GPT-5.2 Chatnone | 7.9… | OpenAI | $0.291… | 6.84s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 未遵循指令: 1 响应时间(平均)6.84s 响应时间(最大)38.52s 响应时间(总计)123.17s … |
|
查看模型卡片
总测试数: 18
错误测试数: 6
尝试通过率: 75.9%
不稳定测试: 3…
输出令牌: 17,346
推理令牌: 0
响应时间:平均 6.84s · 总计 123.17s · 最大 38.52s
|
||||||
| #86#86 | Nemotron 3 Supernone | 5.1… | NVIDIA | $0.000… | 8.54s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 10 未遵循指令: 4 响应时间(平均)8.54s 响应时间(最大)24.97s 响应时间(总计)153.69s … |
|
查看模型卡片
总测试数: 18
错误测试数: 14
尝试通过率: 35.2%
不稳定测试: 4…
输出令牌: 4,760
推理令牌: 0
响应时间:平均 8.54s · 总计 153.69s · 最大 24.97s
|
||||||
| #12#12 | Gemini 3 PRO Previewmedium | 8.4… | $0.197… | 9.06s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 API 错误: 1 响应时间(平均)9.06s 响应时间(最大)26.24s 响应时间(总计)90.58s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 4
尝试通过率: 77.8%
不稳定测试: 0…
输出令牌: 1,508
推理令牌: 10,084
响应时间:平均 9.06s · 总计 90.58s · 最大 26.24s
|
||||||
| #55#55 | Grok 4.20 Multi Agent Betamedium已归档模型:该模型将不再更新,也不会在新测试中继续测试。 | 6.4… | X AI | $5.074… | 9.80s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 4 答案错误: 3 API 错误: 2 额外格式: 2 响应时间(平均)9.80s 响应时间(最大)35.28s 响应时间(总计)156.75s … |
|
查看模型卡片
总测试数: 18
错误测试数: 11
尝试通过率: 57.4%
不稳定测试: 6…
输出令牌: 299,034
推理令牌: 309,670
响应时间:平均 9.80s · 总计 156.75s · 最大 35.28s
|
||||||
| #25#25 | Grok 4.20 Betamedium已归档模型:该模型将不再更新,也不会在新测试中继续测试。 | 8.0… | X AI | $0.633… | 9.81s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 答案错误: 3 响应时间(平均)9.81s 响应时间(最大)31.36s 响应时间(总计)176.62s … |
|
查看模型卡片
总测试数: 18
错误测试数: 6
尝试通过率: 74.1%
不稳定测试: 2…
输出令牌: 1,568
推理令牌: 91,909
响应时间:平均 9.81s · 总计 176.62s · 最大 31.36s
|
||||||
| #85#85 | Qwen3 Coder Nextnone | 5.1… | Qwen | $0.008… | 10.18s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 12 额外格式: 1 未遵循指令: 1 响应时间(平均)10.18s 响应时间(最大)45.14s 响应时间(总计)122.13s … |
|
查看模型卡片
总测试数: 18
错误测试数: 14
尝试通过率: 25.9%
不稳定测试: 1…
输出令牌: 3,617
推理令牌: 0
响应时间:平均 10.18s · 总计 122.13s · 最大 45.14s
|
||||||
| #46#46 | Grok 4.20medium | 7.0… | X AI | $0.743… | 10.33s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 4 答案错误: 3 API 错误: 1 额外格式: 1 响应时间(平均)10.33s 响应时间(最大)29.87s 响应时间(总计)185.87s … |
|
查看模型卡片
总测试数: 18
错误测试数: 9
尝试通过率: 66.7%
不稳定测试: 5…
输出令牌: 1,744
推理令牌: 109,882
响应时间:平均 10.33s · 总计 185.87s · 最大 29.87s
|
||||||
| #49#49 | Hunter Alphamedium已归档模型:该模型将不再更新,也不会在新测试中继续测试。 | 6.7… | OpenRouter | $0.000… | 10.33s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 2 超时: 2 API 错误: 1 额外格式: 1 响应时间(平均)10.33s 响应时间(最大)30.53s 响应时间(总计)175.60s … |
|
查看模型卡片
总测试数: 18
错误测试数: 10
尝试通过率: 64.8%
不稳定测试: 6…
输出令牌: 4,724
推理令牌: 17,921
响应时间:平均 10.33s · 总计 175.60s · 最大 30.53s
|
||||||
| #90#90 | Qwen3 Coder Nextmedium | 4.7… | Qwen | $0.008… | 10.75s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 9 未遵循指令: 5 超时: 1 响应时间(平均)10.75s 响应时间(最大)81.80s 响应时间(总计)129.01s … |
|
查看模型卡片
总测试数: 18
错误测试数: 15
尝试通过率: 27.8%
不稳定测试: 3…
输出令牌: 3,241
推理令牌: 0
响应时间:平均 10.75s · 总计 129.01s · 最大 81.80s
|
||||||
| #37#37 | GPT-5.4 Nanomedium | 7.6… | OpenAI | $0.083… | 11.21s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 3 响应时间(平均)11.21s 响应时间(最大)94.06s 响应时间(总计)201.80s … |
|
查看模型卡片
总测试数: 18
错误测试数: 7
尝试通过率: 68.5%
不稳定测试: 2…
输出令牌: 2,946
推理令牌: 58,132
响应时间:平均 11.21s · 总计 201.80s · 最大 94.06s
|
||||||
| #82#82 | gpt-oss-120bnone | 5.2… | OpenAI | $0.009… | 11.96s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 6 未遵循指令: 5 API 错误: 3 响应时间(平均)11.96s 响应时间(最大)68.97s 响应时间(总计)179.34s … |
|
查看模型卡片
总测试数: 18
错误测试数: 14
尝试通过率: 38.9%
不稳定测试: 5…
输出令牌: 44,652
推理令牌: 0
响应时间:平均 11.96s · 总计 179.34s · 最大 68.97s
|
||||||
| #63#63 | DeepSeek V3.2none | 6.1… | DeepSeek | $0.016… | 12.09s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 额外格式: 2 无效工具调用: 1 响应时间(平均)12.09s 响应时间(最大)115.89s 响应时间(总计)217.56s … |
|
查看模型卡片
总测试数: 18
错误测试数: 11
尝试通过率: 50.0%
不稳定测试: 4…
输出令牌: 8,384
推理令牌: 0
响应时间:平均 12.09s · 总计 217.56s · 最大 115.89s
|
||||||
| #15#15 | Gemini 2.5 Flashmedium | 8.2… | $0.319… | 12.12s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 1 响应时间(平均)12.12s 响应时间(最大)95.48s 响应时间(总计)218.12s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 75.9%
不稳定测试: 1…
输出令牌: 1,898
推理令牌: 122,273
响应时间:平均 12.12s · 总计 218.12s · 最大 95.48s
|
||||||
| #23#23 | MiMo-V2-Promedium | 8.1… | Xiaomi | $0.159… | 12.27s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 额外格式: 1 未遵循指令: 1 超时: 1 响应时间(平均)12.27s 响应时间(最大)64.71s 响应时间(总计)208.56s … |
|
查看模型卡片
总测试数: 18
错误测试数: 6
尝试通过率: 77.8%
不稳定测试: 3…
输出令牌: 2,360
推理令牌: 38,320
响应时间:平均 12.27s · 总计 208.56s · 最大 64.71s
|
||||||
| #26#26 | Claude Sonnet 4.6medium | 8.0… | Anthropic | $1.161… | 12.66s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 额外格式: 2 答案错误: 2 超时: 1 响应时间(平均)12.66s 响应时间(最大)46.35s 响应时间(总计)126.62s … |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 74.1%
不稳定测试: 1…
输出令牌: 42,068
推理令牌: 26,784
响应时间:平均 12.66s · 总计 126.62s · 最大 46.35s
|
||||||
| #74#74 | Kimi K2.5none | 5.5… | Moonshot AI | $0.017… | 13.37s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 12 响应时间(平均)13.37s 响应时间(最大)42.13s 响应时间(总计)147.05s … |
|
查看模型卡片
总测试数: 18
错误测试数: 12
尝试通过率: 40.7%
不稳定测试: 3…
输出令牌: 2,659
推理令牌: 0
响应时间:平均 13.37s · 总计 147.05s · 最大 42.13s
|
||||||
| #9#9 | Qwen3.6 Plus Previewmedium | 8.5… | Qwen | $0.000… | 13.94s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 1 响应时间(平均)13.94s 响应时间(最大)43.55s 响应时间(总计)237.01s … |
|
查看模型卡片
总测试数: 17
错误测试数: 4
尝试通过率: 76.5%
不稳定测试: 0…
输出令牌: 1,756
推理令牌: 77,213
响应时间:平均 13.94s · 总计 237.01s · 最大 43.55s
|
||||||
| #39#39 | GPT-5.2medium | 7.5… | OpenAI | $0.352… | 14.04s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 答案错误: 2 无答案: 1 超时: 1 响应时间(平均)14.04s 响应时间(最大)77.80s 响应时间(总计)154.41s … |
|
查看模型卡片
总测试数: 18
错误测试数: 7
尝试通过率: 72.2%
不稳定测试: 4…
输出令牌: 2,705
推理令牌: 18,977
响应时间:平均 14.04s · 总计 154.41s · 最大 77.80s
|
||||||
| #31#31 | GLM 5V Turbomedium | 7.8… | Z.ai | $0.291… | 14.96s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 无效工具调用: 2 响应时间(平均)14.96s 响应时间(最大)67.08s 响应时间(总计)269.32s … |
|
查看模型卡片
总测试数: 18
错误测试数: 7
尝试通过率: 77.8%
不稳定测试: 6…
输出令牌: 2,351
推理令牌: 58,941
响应时间:平均 14.96s · 总计 269.32s · 最大 67.08s
|
||||||
| #43#43 | GPT-5.4 Minimedium | 7.3… | OpenAI | $0.299… | 15.22s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 5 答案错误: 4 响应时间(平均)15.22s 响应时间(最大)102.91s 响应时间(总计)273.90s … |
|
查看模型卡片
总测试数: 18
错误测试数: 9
尝试通过率: 70.4%
不稳定测试: 6…
输出令牌: 2,131
推理令牌: 59,567
响应时间:平均 15.22s · 总计 273.90s · 最大 102.91s
|
||||||
| #20#20 | Qwen3.6 Plusmedium | 8.1… | Qwen | $0.000… | 15.27s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 API 错误: 1 未遵循指令: 1 响应时间(平均)15.27s 响应时间(最大)43.55s 响应时间(总计)259.55s … |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 74.1%
不稳定测试: 1…
输出令牌: 1,763
推理令牌: 83,782
响应时间:平均 15.27s · 总计 259.55s · 最大 43.55s
|
||||||
| #7#7 | GPT-5.3-Codexmedium | 8.6… | OpenAI | $0.573… | 15.38s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 响应时间(平均)15.38s 响应时间(最大)100.93s 响应时间(总计)276.91s … |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 83.3%
不稳定测试: 3…
输出令牌: 2,279
推理令牌: 35,179
响应时间:平均 15.38s · 总计 276.91s · 最大 100.93s
|
||||||
| #2🥈 #2 | Gemini 3.1 Pro Previewmedium | 9.6… | $0.578… | 15.96s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 1 响应时间(平均)15.96s 响应时间(最大)40.61s 响应时间(总计)175.52s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 1
尝试通过率: 94.4%
不稳定测试: 0…
输出令牌: 1,932
推理令牌: 40,542
响应时间:平均 15.96s · 总计 175.52s · 最大 40.61s
|
||||||
| #67#67 | gpt-oss-120bmedium | 5.8… | OpenAI | $0.011… | 16.08s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 7 未遵循指令: 4 响应时间(平均)16.08s 响应时间(最大)50.92s 响应时间(总计)176.88s … |
|
查看模型卡片
总测试数: 18
错误测试数: 11
尝试通过率: 51.9%
不稳定测试: 6…
输出令牌: 13,493
推理令牌: 36,879
响应时间:平均 16.08s · 总计 176.88s · 最大 50.92s
|
||||||
| #34#34 | MiMo-V2-Omnimedium | 7.7… | Xiaomi | $0.153… | 16.76s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 额外格式: 1 无答案: 1 响应时间(平均)16.76s 响应时间(最大)158.78s 响应时间(总计)301.61s … |
|
查看模型卡片
总测试数: 18
错误测试数: 7
尝试通过率: 61.1%
不稳定测试: 0…
输出令牌: 928
推理令牌: 72,661
响应时间:平均 16.76s · 总计 301.61s · 最大 158.78s
|
||||||
| #1🥇 #1 | Gemini 3 Flash Previewmedium | 10.0… | $0.314… | 17.60s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 没有失败答案。 响应时间(平均)17.60s 响应时间(最大)79.71s 响应时间(总计)193.57s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 0
尝试通过率: 100.0%
不稳定测试: 0…
输出令牌: 2,072
推理令牌: 97,041
响应时间:平均 17.60s · 总计 193.57s · 最大 79.71s
|
||||||
| #18#18 | GLM 5 Turbomedium | 8.1… | Z.ai | $0.182… | 17.67s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 超时: 1 响应时间(平均)17.67s 响应时间(最大)194.23s 响应时间(总计)317.98s … |
|
查看模型卡片
总测试数: 18
错误测试数: 6
尝试通过率: 77.8%
不稳定测试: 5…
输出令牌: 12,197
推理令牌: 38,933
响应时间:平均 17.67s · 总计 317.98s · 最大 194.23s
|
||||||
| #16#16 | GPT-5.4medium | 8.2… | OpenAI | $0.832… | 18.63s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 响应时间(平均)18.63s 响应时间(最大)100.41s 响应时间(总计)335.26s … |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 79.6%
不稳定测试: 3…
输出令牌: 2,169
推理令牌: 48,732
响应时间:平均 18.63s · 总计 335.26s · 最大 100.41s
|
||||||
| #50#50 | Nemotron 3 Supermedium | 6.7… | NVIDIA | $0.000… | 19.06s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 4 答案错误: 3 API 错误: 1 超时: 1 响应时间(平均)19.06s 响应时间(最大)87.80s 响应时间(总计)305.04s … |
|
查看模型卡片
总测试数: 18
错误测试数: 9
尝试通过率: 55.6%
不稳定测试: 3…
输出令牌: 11,947
推理令牌: 29,768
响应时间:平均 19.06s · 总计 305.04s · 最大 87.80s
|
||||||
| #36#36 | Claude Opus 4.6medium | 7.6… | Anthropic | $1.446… | 21.08s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 额外格式: 4 答案错误: 2 响应时间(平均)21.08s 响应时间(最大)83.40s 响应时间(总计)231.84s … |
|
查看模型卡片
总测试数: 18
错误测试数: 6
尝试通过率: 70.4%
不稳定测试: 2…
输出令牌: 29,829
推理令牌: 18,938
响应时间:平均 21.08s · 总计 231.84s · 最大 83.40s
|
||||||
| #13#13 | GLM 5medium | 8.4… | Z.ai | $0.155… | 23.34s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 2 未遵循指令: 1 无答案: 1 超时: 1 响应时间(平均)23.34s 响应时间(最大)79.09s 响应时间(总计)233.40s … |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 85.2%
不稳定测试: 4…
输出令牌: 20,163
推理令牌: 58,337
响应时间:平均 23.34s · 总计 233.40s · 最大 79.09s
|
||||||
| #40#40 | MiMo-V2-Flashmedium | 7.5… | Xiaomi | $0.038… | 23.36s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 API 错误: 1 额外格式: 1 未遵循指令: 1 超时: 1 响应时间(平均)23.36s 响应时间(最大)96.01s 响应时间(总计)280.34s … |
|
查看模型卡片
总测试数: 18
错误测试数: 7
尝试通过率: 70.4%
不稳定测试: 3…
输出令牌: 12,387
推理令牌: 115,182
响应时间:平均 23.36s · 总计 280.34s · 最大 96.01s
|
||||||
| #51#51 | Grok 4.1 Fastmedium | 6.7… | X AI | $0.056… | 23.88s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 4 答案错误: 3 无答案: 1 超时: 1 响应时间(平均)23.88s 响应时间(最大)121.79s 响应时间(总计)262.66s … |
|
查看模型卡片
总测试数: 18
错误测试数: 9
尝试通过率: 64.8%
不稳定测试: 6…
输出令牌: 2,010
推理令牌: 91,298
响应时间:平均 23.88s · 总计 262.66s · 最大 121.79s
|
||||||
| #44#44 | GPT-5 Minimedium | 7.0… | OpenAI | $0.128… | 23.98s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 4 答案错误: 4 超时: 1 响应时间(平均)23.98s 响应时间(最大)88.15s 响应时间(总计)431.56s … |
|
查看模型卡片
总测试数: 18
错误测试数: 9
尝试通过率: 61.1%
不稳定测试: 3…
输出令牌: 6,379
推理令牌: 53,482
响应时间:平均 23.98s · 总计 431.56s · 最大 88.15s
|
||||||
| #33#33 | GLM 5.1medium | 7.8… | Z.ai | $0.201… | 24.13s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 超时: 2 API 错误: 1 响应时间(平均)24.13s 响应时间(最大)118.52s 响应时间(总计)410.25s … |
|
查看模型卡片
总测试数: 18
错误测试数: 6
尝试通过率: 75.9%
不稳定测试: 3…
输出令牌: 8,005
推理令牌: 49,090
响应时间:平均 24.13s · 总计 410.25s · 最大 118.52s
|
||||||
| #14#14 | Gemma 4 31Bmedium | 8.3… | $0.018… | 24.88s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 API 错误: 2 未遵循指令: 1 超时: 1 答案错误: 1 响应时间(平均)24.88s 响应时间(最大)70.97s 响应时间(总计)398.13s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 79.6%
不稳定测试: 2…
输出令牌: 12,734
推理令牌: 27,950
响应时间:平均 24.88s · 总计 398.13s · 最大 70.97s
|
||||||
| #24#24 | Gemma 4 26B A4Bmedium | 8.0… | $0.028… | 25.03s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 2 答案错误: 2 未遵循指令: 1 响应时间(平均)25.03s 响应时间(最大)147.47s 响应时间(总计)425.48s … | |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 75.9%
不稳定测试: 2…
输出令牌: 15,928
推理令牌: 44,631
响应时间:平均 25.03s · 总计 425.48s · 最大 147.47s
|
||||||
| #30#30 | Step 3.5 Flashmedium | 7.9… | Stepfun | $0.000… | 26.78s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 3 答案错误: 3 响应时间(平均)26.78s 响应时间(最大)170.45s 响应时间(总计)294.58s … |
|
查看模型卡片
总测试数: 17
错误测试数: 6
尝试通过率: 70.6%
不稳定测试: 2…
输出令牌: 71,904
推理令牌: 155,607
响应时间:平均 26.78s · 总计 294.58s · 最大 170.45s
|
||||||
| #6#6 | Seed-2.0-Litemedium | 8.6… | Bytedance Seed | $0.121… | 30.37s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 2 响应时间(平均)30.37s 响应时间(最大)168.71s 响应时间(总计)546.72s … |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 83.3%
不稳定测试: 3…
输出令牌: 3,257
推理令牌: 52,042
响应时间:平均 30.37s · 总计 546.72s · 最大 168.71s
|
||||||
| #78#78 | MiniMax M2.7medium | 5.3… | Minimax | $0.091… | 31.08s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 6 答案错误: 5 超时: 2 无效工具调用: 1 响应时间(平均)31.08s 响应时间(最大)117.04s 响应时间(总计)528.37s … |
|
查看模型卡片
总测试数: 18
错误测试数: 14
尝试通过率: 51.9%
不稳定测试: 10…
输出令牌: 4,984
推理令牌: 62,787
响应时间:平均 31.08s · 总计 528.37s · 最大 117.04s
|
||||||
| #19#19 | Qwen3.5-122B-A10Bmedium | 8.1… | Qwen | $0.528… | 31.38s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 超时: 2 响应时间(平均)31.38s 响应时间(最大)119.29s 响应时间(总计)564.84s … |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 79.6%
不稳定测试: 3…
输出令牌: 17,635
推理令牌: 162,668
响应时间:平均 31.38s · 总计 564.84s · 最大 119.29s
|
||||||
| #91#91 | GLM 4.7 Flashmedium | 4.6… | Z.ai | $0.046… | 32.33s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 2 无答案: 2 无效工具调用: 1 超时: 1 响应时间(平均)32.33s 响应时间(最大)174.55s 响应时间(总计)355.65s … |
|
查看模型卡片
总测试数: 18
错误测试数: 14
尝试通过率: 38.9%
不稳定测试: 8…
输出令牌: 39,688
推理令牌: 72,401
响应时间:平均 32.33s · 总计 355.65s · 最大 174.55s
|
||||||
| #69#69 | MiniMax M2.5medium | 5.7… | Minimax | $0.250… | 39.65s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 5 超时: 4 未遵循指令: 3 无效工具调用: 1 响应时间(平均)39.65s 响应时间(最大)237.27s 响应时间(总计)396.47s … |
|
查看模型卡片
总测试数: 18
错误测试数: 13
尝试通过率: 57.4%
不稳定测试: 10…
输出令牌: 107,044
推理令牌: 206,422
响应时间:平均 39.65s · 总计 396.47s · 最大 237.27s
|
||||||
| #56#56 | GPT-5 Nanomedium | 6.3… | OpenAI | $0.066… | 44.13s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 7 未遵循指令: 3 超时: 1 响应时间(平均)44.13s 响应时间(最大)204.02s 响应时间(总计)485.47s … |
|
查看模型卡片
总测试数: 18
错误测试数: 11
尝试通过率: 59.3%
不稳定测试: 8…
输出令牌: 4,980
推理令牌: 156,288
响应时间:平均 44.13s · 总计 485.47s · 最大 204.02s
|
||||||
| #42#42 | Qwen3.5-35B-A3Bmedium | 7.4… | Qwen | $0.398… | 44.51s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 4 答案错误: 2 API 错误: 1 无答案: 1 响应时间(平均)44.51s 响应时间(最大)106.00s 响应时间(总计)801.21s … |
|
查看模型卡片
总测试数: 18
错误测试数: 8
尝试通过率: 79.6%
不稳定测试: 7…
输出令牌: 10,137
推理令牌: 208,761
响应时间:平均 44.51s · 总计 801.21s · 最大 106.00s
|
||||||
| #27#27 | DeepSeek V3.2medium | 8.0… | DeepSeek | $0.029… | 46.41s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 超时: 2 未遵循指令: 1 响应时间(平均)46.41s 响应时间(最大)180.92s 响应时间(总计)835.33s … |
|
查看模型卡片
总测试数: 18
错误测试数: 6
尝试通过率: 79.6%
不稳定测试: 4…
输出令牌: 10,620
推理令牌: 48,511
响应时间:平均 46.41s · 总计 835.33s · 最大 180.92s
|
||||||
| #8#8 | Qwen3.5 Plus 2026-02-15medium | 8.5… | Qwen | $0.220… | 46.56s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 2 答案错误: 2 响应时间(平均)46.56s 响应时间(最大)120.91s 响应时间(总计)512.20s … |
|
查看模型卡片
总测试数: 18
错误测试数: 4
尝试通过率: 83.3%
不稳定测试: 2…
输出令牌: 2,121
推理令牌: 111,889
响应时间:平均 46.56s · 总计 512.20s · 最大 120.91s
|
||||||
| #10#10 | Qwen3.5-27Bmedium | 8.4… | Qwen | $0.497… | 53.03s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 未遵循指令: 2 额外格式: 1 超时: 1 答案错误: 1 响应时间(平均)53.03s 响应时间(最大)163.96s 响应时间(总计)954.46s … |
|
查看模型卡片
总测试数: 18
错误测试数: 5
尝试通过率: 81.5%
不稳定测试: 3…
输出令牌: 2,500
推理令牌: 242,500
响应时间:平均 53.03s · 总计 954.46s · 最大 163.96s
|
||||||
| #32#32 | Qwen3.5-Flashmedium | 7.8… | Qwen | $0.080… | 66.72s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 4 API 错误: 1 未遵循指令: 1 答案错误: 1 响应时间(平均)66.72s 响应时间(最大)234.29s 响应时间(总计)1201.03s … |
|
查看模型卡片
总测试数: 18
错误测试数: 7
尝试通过率: 81.5%
不稳定测试: 6…
输出令牌: 2,073
推理令牌: 191,899
响应时间:平均 66.72s · 总计 1201.03s · 最大 234.29s
|
||||||
| #11#11 | Gemini 3.1 Flash Lite Previewhigh已归档模型:该模型将不再更新,也不会在新测试中继续测试。 | 8.4… | $2.310… | 68.83s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 3 未遵循指令: 1 响应时间(平均)68.83s 响应时间(最大)280.52s 响应时间(总计)1101.32s … | |
|
查看模型卡片
总测试数: 16
错误测试数: 4
尝试通过率: 77.1%
不稳定测试: 1…
输出令牌: 1,283
推理令牌: 1,533,310
响应时间:平均 68.83s · 总计 1101.32s · 最大 280.52s
|
||||||
| #38#38 | Seed-2.0-Minimedium | 7.5… | Bytedance Seed | $0.037… | 69.70s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 4 答案错误: 2 未遵循指令: 1 响应时间(平均)69.70s 响应时间(最大)262.83s 响应时间(总计)1045.47s … |
|
查看模型卡片
总测试数: 18
错误测试数: 7
尝试通过率: 66.7%
不稳定测试: 2…
输出令牌: 2,419
推理令牌: 79,238
响应时间:平均 69.70s · 总计 1045.47s · 最大 262.83s
|
||||||
| #45#45 | Kimi K2.5medium | 7.0… | Moonshot AI | $0.220… | 72.43s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 4 未遵循指令: 2 超时: 2 无答案: 1 响应时间(平均)72.43s 响应时间(最大)150.77s 响应时间(总计)796.70s … |
|
查看模型卡片
总测试数: 18
错误测试数: 9
尝试通过率: 72.2%
不稳定测试: 7…
输出令牌: 42,176
推理令牌: 84,870
响应时间:平均 72.43s · 总计 796.70s · 最大 150.77s
|
||||||
| #95#95 | Qwen3.5-9Bmedium | 4.4… | Qwen | $0.030… | 73.64s… | 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 11 未遵循指令: 2 额外格式: 1 答案错误: 1 响应时间(平均)73.64s 响应时间(最大)226.38s 响应时间(总计)1104.60s … |
|
查看模型卡片
总测试数: 18
错误测试数: 15
尝试通过率: 33.3%
不稳定测试: 6…
输出令牌: 24,291
推理令牌: 172,597
响应时间:平均 73.64s · 总计 1104.60s · 最大 226.38s
|
||||||
快速对比
Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro PreviewmediumGemini 3 Flash PreviewmediumvsClaude Opus 4.7mediumGemini 3 Flash PreviewmediumvsClaude Opus 4.7noneGemini 3 Flash PreviewmediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewmediumvsSeed-2.0-LitemediumGemini 3 Flash PreviewmediumvsGPT-5.3-CodexmediumGemini 3 Flash PreviewmediumvsQwen3.6 Plus Previewmedium免费可用Gemini 3.1 Pro PreviewmediumvsClaude Opus 4.7mediumClaude Opus 4.7mediumvsClaude Opus 4.7noneClaude Opus 4.7nonevsGemini 3 Flash PreviewlowGemini 3 Flash PreviewlowvsSeed-2.0-LitemediumSeed-2.0-LitemediumvsGPT-5.3-Codexmedium