导航
AI BENCHY
Advertise here

AI BENCHY 对比

已对比模型

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-06-02

指标 Nemotron 3 Super Nemotron 3 Super medium 发布日期: 2026-03-11 免费可用 Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium 发布日期: 2026-02-24 Elephant Alpha Elephant Alpha medium 发布日期: 2026-04-14 gpt-oss-120b gpt-oss-120b medium 发布日期: 2025-08-05 免费可用
分数 5.9 7.7 5.4 5.9
排名 #102 #41 #128 #103
可靠性 10.0 10.0 不适用 10.0
一致性 9.2 8.8 9.6 7.9
测试正确
尝试通过率 43.3% 71.7% 33.3% 50.0%
不稳定测试 2 3 1 5
总运行次数 60 60 60 60
每个结果成本 0.004 5.031 0.000 0.151
总成本 $0.019 $0.509 $0.000 $0.012
输入价格 $0.090 / 1M $0.260 / 1M $0.000 / 1M $0.000 / 1M
输出价格 $0.450 / 1M $2.080 / 1M $0.000 / 1M $0.000 / 1M
总输入令牌 36,614 38,997 33,744 36,355
输出令牌 14,505 26,166 2,596 17,495
推理令牌 30,178 213,524 0 46,878
响应时间(平均) 20.87s 39.40s 1.27s 22.41s
响应时间(最大) 87.80s 168.16s 3.70s 68.16s
响应时间(总计) 375.66s 788.00s 22.82s 291.35s

按分数排名的模型

分数 vs 总成本

响应时间(平均)

分数 vs 响应时间(平均)

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 8.3 10.0 75.0% 0 7.85s 686 748 1,305
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.75s 672 269 16,835
Elephant Alpha 6.6 10.0 50.0% 0 1.19s 726 815 0
gpt-oss-120b 6.7 9.9 50.0% 0 10.21s 1,314 3,518 2,177
编程 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 3.1 9.9 0.0% 0 62.38s 1,362 452 848
Qwen3.5-122B-A10B 4.1 5.8 33.3% 1 119.57s 4,795 8,036 45,074
Elephant Alpha 4.0 6.7 16.7% 1 1.30s 813 365 0
gpt-oss-120b 3.9 5.6 33.3% 1 47.24s 5,053 847 8,618
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 10.0 10.0 100.0% 0 87.80s 15,561 2,021 9,996
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 107.79s 14,947 483 11,337
Elephant Alpha 3.0 10.0 0.0% 0 3.70s 14,046 562 0
gpt-oss-120b 10.0 10.0 100.0% 0 31.18s 11,535 694 5,072
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 10.0 10.0 100.0% 0 18.16s 7,944 877 2,607
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 23.41s 7,782 270 16,558
Elephant Alpha 6.5 10.0 50.0% 0 979ms 8,004 246 0
gpt-oss-120b 6.4 5.9 66.7% 1 1.98s 7,476 241 1,114
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 2.9 4.4 22.2% 2 16.19s 456 5,255 6,072
Qwen3.5-122B-A10B 2.9 7.2 11.1% 1 63.40s 771 15,537 64,889
Elephant Alpha 3.0 10.0 0.0% 0 925ms 810 24 0
gpt-oss-120b 2.9 4.4 22.2% 2 50.92s 1,266 6,784 20,606
通用智能 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 4.1 10.0 0.0% 0 6.91s 492 105 363
Qwen3.5-122B-A10B 3.4 2.2 33.3% 1 34.11s 344 66 7,592
Elephant Alpha 4.3 10.0 0.0% 0 920ms 540 105 0
gpt-oss-120b 4.3 10.0 0.0% 0 7.90s 659 107 387
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 7.3 10.0 50.0% 0 6.97s 723 956 2,383
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.88s 593 77 7,372
Elephant Alpha 9.8 10.0 100.0% 0 987ms 732 82 0
gpt-oss-120b 9.9 10.0 100.0% 0 7.63s 1,036 126 1,799
谜题求解 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 3.0 10.0 0.0% 0 3.15s 708 570 1,322
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 17.89s 696 284 27,575
Elephant Alpha 5.3 10.0 33.3% 0 868ms 729 166 0
gpt-oss-120b 5.3 7.2 44.4% 1 21.71s 1,190 1,790 2,264
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 10.0 10.0 100.0% 0 39.75s 8,544 270 1,969
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 4.60s 8,193 322 1,226
Elephant Alpha 3.0 10.0 0.0% 0 2.83s 7,344 231 0
gpt-oss-120b 9.8 10.0 100.0% 0 6.91s 6,514 287 1,083
常识问答 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Nemotron 3 Super 3.0 10.0 0.0% 0 55.32s 138 3,251 3,313
Qwen3.5-122B-A10B 3.0 10.0 0.0% 0 52.87s 204 822 15,066
Elephant Alpha 0.0 0.0 0.0% 0 0ms 0 0 0
gpt-oss-120b 3.0 10.0 0.0% 0 26.51s 312 3,101 3,758

快速对比

切换对比组合