导航
AI BENCHY
Your ad here

AI BENCHY 对比

已对比模型

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-04-20

指标 Kimi K2.6 Kimi K2.6 medium 发布日期: 2026-04-20 Kimi K2.5 Kimi K2.5 medium 发布日期: 2026-01-27 GLM 5 GLM 5 medium 发布日期: 2026-02-12 Claude Opus 4.7 Claude Opus 4.7 medium 发布日期: 2026-04-16
分数 7.7 7.0 8.4 9.2
排名 #34 #46 #13 #3
一致性 8.3 6.8 8.2 10.0
测试正确
尝试通过率 74.1% 72.2% 85.2% 88.9%
不稳定测试 4 7 4 0
总运行次数 54 54 54 54
每个结果成本 6.563 2.444 1.188 2.790
总成本 $0.722 $0.220 $0.155 $0.447
???? $0.950 / 1M $0.440 / 1M $0.700 / 1M $5.000 / 1M
???? $4.000 / 1M $2.000 / 1M $0.140 / 1M $25.000 / 1M
输出令牌 80,759 42,176 20,163 5,375
推理令牌 179,814 84,870 58,337 1,341
响应时间(平均) 45.20s 72.43s 23.34s 3.53s
响应时间(最大) 215.85s 150.77s 79.09s 21.45s
响应时间(总计) 768.37s 796.70s 233.40s 60.03s

按分数排名的模型

分数 vs 总成本

响应时间(平均)

分数 vs 响应时间(平均)

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Kimi K2.6 7.0 8.0 66.7% 1 11.59s 7,115 8,934
Kimi K2.5 7.3 5.8 83.3% 2 51.38s 2,789 8,880
GLM 5 10.0 10.0 100.0% 0 23.66s 480 7,056
Claude Opus 4.7 8.3 10.0 75.0% 0 1.85s 348 0
编程 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Kimi K2.6 10.0 10.0 100.0% 0 106.96s 3,236 18,817
Kimi K2.5 4.7 1.6 66.7% 1 150.77s 1,269 9,749
GLM 5 10.0 10.0 100.0% 0 79.09s 330 19,814
Claude Opus 4.7 10.0 10.0 100.0% 0 6.41s 1,141 257
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Kimi K2.6 10.0 10.0 100.0% 0 40.96s 711 13,876
Kimi K2.5 10.0 10.0 100.0% 0 71.37s 703 3,713
GLM 5 10.0 10.0 100.0% 0 28.96s 662 3,242
Claude Opus 4.7 10.0 10.0 100.0% 0 21.45s 2,369 1,084
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Kimi K2.6 10.0 10.0 100.0% 0 20.38s 316 11,305
Kimi K2.5 10.0 10.0 100.0% 0 49.78s 563 7,940
GLM 5 7.1 5.6 83.3% 1 8.90s 567 3,734
Claude Opus 4.7 10.0 10.0 100.0% 0 2.37s 324 0
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Kimi K2.6 5.3 7.2 44.4% 1 202.38s 47,035 98,262
Kimi K2.5 3.5 4.4 33.3% 2 137.29s 20,753 30,564
GLM 5 3.5 4.4 33.3% 2 0ms 13,176 14,137
Claude Opus 4.7 7.7 10.0 66.7% 0 1.17s 51 0
通用智能 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Kimi K2.6 10.0 10.0 100.0% 0 17.83s 3,981 4,472
Kimi K2.5 6.5 3.4 66.7% 1 69.73s 3,815 4,262
GLM 5 6.1 3.1 66.7% 1 14.69s 2,020 2,248
Claude Opus 4.7 10.0 10.0 100.0% 0 2.87s 256 0
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Kimi K2.6 10.0 10.0 100.0% 0 12.53s 3,977 5,269
Kimi K2.5 10.0 10.0 100.0% 0 92.47s 5,371 6,547
GLM 5 10.0 10.0 100.0% 0 7.25s 1,001 2,129
Claude Opus 4.7 10.0 10.0 100.0% 0 1.57s 114 0
谜题求解 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Kimi K2.6 5.0 5.2 44.5% 2 25.59s 14,140 17,868
Kimi K2.5 5.3 7.3 44.4% 1 45.40s 6,671 12,403
GLM 5 10.0 10.0 100.0% 0 15.64s 1,694 4,983
Claude Opus 4.7 10.0 10.0 100.0% 0 2.51s 399 0
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Kimi K2.6 10.0 10.0 100.0% 0 8.92s 248 1,011
Kimi K2.5 10.0 10.0 100.0% 0 31.74s 242 812
GLM 5 10.0 10.0 100.0% 0 15.93s 233 994
Claude Opus 4.7 10.0 10.0 100.0% 0 4.17s 373 0

快速对比

切换对比组合