AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-20 已评估模型: 210

210/210

排名	模型	分数	公司	总成本	响应时间（平均）
#145#145	GLM 5V Turbonone	5.6	Z.ai	$0.052	2.99s
查看模型卡片总测试数 21 错误测试数 13 可靠性 10.0 尝试通过率 36.4% 不稳定测试 0 输入令牌 37,100 输出令牌 1,766 推理令牌 0 响应时间（平均） 2.99s 响应时间（总计） 62.74s 响应时间（最大） 6.51s 答案错误: 11 未遵循指令: 2 反AI技巧 : 4.8 编程 : 5.5 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.6 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#140#140	Nemotron 3 Supermedium	5.7	NVIDIA	$0.050 ↑	51.99s
查看模型卡片总测试数 22 错误测试数 14 可靠性 8.7 尝试通过率 40.9% 不稳定测试 3 输入令牌 81,429 输出令牌 18,371 推理令牌 98,853 响应时间（平均） 51.99s 响应时间（总计） 1039.89s 响应时间（最大） 431.98s 答案错误: 5 API 错误: 4 未遵循指令: 3 无答案: 1 超时: 1 反AI技巧 : 8.3 编程 : 3.1 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.1 指令遵循 : 7.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#149#149	KAT-Coder-Air V2.5medium	5.6	Kwaipilot	$0.048	8.42s
查看模型卡片总测试数 22 错误测试数 14 可靠性 9.9 尝试通过率 45.5% 不稳定测试 3 输入令牌 51,472 输出令牌 7,822 推理令牌 58,352 响应时间（平均） 8.42s 响应时间（总计） 185.24s 响应时间（最大） 48.19s 答案错误: 11 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 8.7 编程 : 3.6 综合 : 6.5 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 10.0 谜题求解 : 3.6 工具调用 : 10.0 常识问答 : 3.0
#135#135	Hy3 previewhigh	5.9	Tencent	$0.048 ↕	56.57s
查看模型卡片总测试数 21 错误测试数 10 可靠性 10.0 尝试通过率 53.0% 不稳定测试 2 输入令牌 25,987 输出令牌 216,719 推理令牌 0 响应时间（平均） 56.57s 响应时间（总计） 848.59s 响应时间（最大） 149.94s API 错误: 7 答案错误: 3 反AI技巧 : 6.4 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#120#120	Gemini 3.1 Flash Liteminimal	6.1	Google	$0.047	1.86s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 51.5% 不稳定测试 3 输入令牌 119,065 输出令牌 11,118 推理令牌 0 响应时间（平均） 1.86s 响应时间（总计） 40.88s 响应时间（最大） 12.97s 答案错误: 8 未遵循指令: 3 无答案: 1 反AI技巧 : 8.3 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#170#170	GLM 5 Turbonone	5.1	Z.ai	$0.047 ↑	2.82s
查看模型卡片总测试数 21 错误测试数 15 可靠性 10.0 尝试通过率 30.3% 不稳定测试 2 输入令牌 32,525 输出令牌 1,815 推理令牌 0 响应时间（平均） 2.82s 响应时间（总计） 59.29s 响应时间（最大） 8.21s 答案错误: 13 未遵循指令: 2 反AI技巧 : 3.0 编程 : 3.9 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 5.5 工具调用 : 10.0 常识问答 : 3.0
#122#122	Gemini 3.1 Flash Litenone	6.1	Google	$0.046	1.75s
查看模型卡片总测试数 22 错误测试数 13 可靠性 10.0 尝试通过率 50.0% 不稳定测试 4 输入令牌 118,050 输出令牌 10,723 推理令牌 0 响应时间（平均） 1.75s 响应时间（总计） 38.60s 响应时间（最大） 16.25s 答案错误: 11 未遵循指令: 1 无答案: 1 反AI技巧 : 7.5 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 6.3 工具调用 : 10.0 常识问答 : 3.0
#147#147	Mimo V2 PROnone	5.6	Xiaomi	$0.045 ↓	2.27s
查看模型卡片总测试数 21 错误测试数 14 可靠性 10.0 尝试通过率 39.4% 不稳定测试 3 输入令牌 39,344 输出令牌 2,352 推理令牌 0 响应时间（平均） 2.27s 响应时间（总计） 45.50s 响应时间（最大） 6.58s 答案错误: 11 未遵循指令: 2 API 错误: 1 反AI技巧 : 3.5 编程 : 5.5 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 6.5 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#111#111	LongCat 2.0none	6.3	Meituan	$0.044	5.18s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 36.4% 不稳定测试 2 输入令牌 108,743 输出令牌 9,372 推理令牌 0 响应时间（平均） 5.18s 响应时间（总计） 113.95s 响应时间（最大） 48.38s 答案错误: 14 额外格式: 1 反AI技巧 : 4.8 编程 : 5.5 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 6.5 谜题求解 : 4.0 工具调用 : 10.0 常识问答 : 3.0
#150#150	DeepSeek V4 Flashnone	5.6	DeepSeek	$0.044 ↓	36.78s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 31.8% 不稳定测试 4 输入令牌 240,221 输出令牌 100,727 推理令牌 0 响应时间（平均） 36.78s 响应时间（总计） 809.09s 响应时间（最大） 247.27s 答案错误: 12 额外格式: 2 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 3.0 编程 : 4.2 综合 : 4.6 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#113#113	MiMo-V2-Flashmedium	6.3	Xiaomi	$0.043 ↑	20.11s
查看模型卡片总测试数 21 错误测试数 9 可靠性 10.0 尝试通过率 62.1% 不稳定测试 3 输入令牌 40,111 输出令牌 12,476 推理令牌 125,039 响应时间（平均） 20.11s 响应时间（总计） 301.59s 响应时间（最大） 96.01s 答案错误: 5 API 错误: 1 额外格式: 1 未遵循指令: 1 超时: 1 反AI技巧 : 8.1 编程 : 6.0 综合 : 4.9 数据解析与提取 : 6.5 领域专项 : 5.9 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#45#45	DeepSeek V4 Flashhigh	7.7	DeepSeek	$0.042 ↓	49.75s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 72.7% 不稳定测试 5 输入令牌 108,392 输出令牌 14,478 推理令牌 153,687 响应时间（平均） 49.75s 响应时间（总计） 1094.41s 响应时间（最大） 218.13s 答案错误: 6 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 8.3 编程 : 7.8 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#158#158	KAT-Coder-Air V2.5low	5.4	Kwaipilot	$0.041	10.09s
查看模型卡片总测试数 22 错误测试数 15 可靠性 9.9 尝试通过率 45.5% 不稳定测试 7 输入令牌 61,085 输出令牌 5,905 推理令牌 46,990 响应时间（平均） 10.09s 响应时间（总计） 222.03s 响应时间（最大） 86.23s 答案错误: 7 额外格式: 4 API 错误: 2 未遵循指令: 2 反AI技巧 : 7.3 编程 : 3.5 综合 : 6.4 数据解析与提取 : 6.5 领域专项 : 2.9 通用智能 : 5.0 指令遵循 : 9.8 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#180#180	GPT-5.4 Nanonone	4.8	OpenAI	$0.041	2.57s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 28.8% 不稳定测试 5 输入令牌 115,924 输出令牌 13,794 推理令牌 0 响应时间（平均） 2.57s 响应时间（总计） 56.51s 响应时间（最大） 25.50s 答案错误: 15 未遵循指令: 2 无答案: 1 反AI技巧 : 3.5 编程 : 4.6 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 2.9 通用智能 : 3.8 指令遵循 : 6.3 谜题求解 : 5.4 工具调用 : 10.0 常识问答 : 3.0
#141#141	GLM 5none	5.7	Z.ai	$0.041 ↑	4.03s
查看模型卡片总测试数 21 错误测试数 12 可靠性 10.0 尝试通过率 42.4% 不稳定测试 1 输入令牌 37,135 输出令牌 1,989 推理令牌 0 响应时间（平均） 4.03s 响应时间（总计） 56.37s 响应时间（最大） 11.07s 答案错误: 12 反AI技巧 : 4.8 编程 : 4.0 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#204#204	Qwen3.5-9Bmedium	3.8	Qwen	$0.036 ↑	82.24s
查看模型卡片总测试数 22 错误测试数 19 可靠性 5.0 尝试通过率 25.8% 不稳定测试 5 输入令牌 17,070 输出令牌 29,045 推理令牌 209,516 响应时间（平均） 82.24s 响应时间（总计） 1315.88s 响应时间（最大） 226.38s 超时: 12 无答案: 2 答案错误: 2 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 5.1 编程 : 2.9 综合 : 3.0 数据解析与提取 : 3.6 领域专项 : 3.6 通用智能 : 2.8 指令遵循 : 6.5 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#115#115	Gemma 4 31Bnone	6.2	Google	$0.035 ↑	5.34s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 48.5% 不稳定测试 1 输入令牌 125,728 输出令牌 13,317 推理令牌 0 响应时间（平均） 5.34s 响应时间（总计） 106.82s 响应时间（最大） 29.95s 答案错误: 9 API 错误: 2 未遵循指令: 1 反AI技巧 : 6.5 编程 : 5.5 综合 : 3.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 6.5 谜题求解 : 6.5 工具调用 : 3.0 常识问答 : 3.0
#186#186	Laguna M.1medium	4.7	Poolside	$0.033 ↕	14.73s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 45.5% 不稳定测试 2 输入令牌 44,969 输出令牌 58,087 推理令牌 0 响应时间（平均） 14.73s 响应时间（总计） 220.93s 响应时间（最大） 53.14s API 错误: 4 答案错误: 4 未遵循指令: 1 无答案: 1 反AI技巧 : 6.5 编程 : 1.5 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#187#187	Qwen3 Coder Nextmedium	4.7	Qwen	$0.032 ↓	9.61s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 27.3% 不稳定测试 3 输入令牌 148,194 输出令牌 19,069 推理令牌 0 响应时间（平均） 9.61s 响应时间（总计） 153.69s 响应时间（最大） 81.80s 答案错误: 13 未遵循指令: 3 无答案: 1 超时: 1 反AI技巧 : 3.5 编程 : 3.7 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 6.3 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#189#189	Mercury 2none	4.6	Inception	$0.030	829ms
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 22.7% 不稳定测试 2 输入令牌 88,704 输出令牌 9,564 推理令牌 0 响应时间（平均） 829ms 响应时间（总计） 18.24s 响应时间（最大） 4.52s 答案错误: 17 未遵循指令: 1 反AI技巧 : 3.0 编程 : 3.4 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#179#179	Ring-2.6-1Tnone	4.8	Inclusionai	$0.026 ↕	55.10s
查看模型卡片总测试数 22 错误测试数 13 可靠性 10.0 尝试通过率 45.5% 不稳定测试 2 输入令牌 7,599 输出令牌 39,954 推理令牌 0 响应时间（平均） 55.10s 响应时间（总计） 881.55s 响应时间（最大） 143.82s API 错误: 6 答案错误: 5 未遵循指令: 2 反AI技巧 : 9.2 编程 : 5.3 综合 : 3.0 数据解析与提取 : 3.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 3.0 常识问答 : 3.0
#168#168	MiMo-V2.5none	5.1	Xiaomi	$0.025 ↓	4.62s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 25.8% 不稳定测试 1 输入令牌 141,043 输出令牌 16,464 推理令牌 0 响应时间（平均） 4.62s 响应时间（总计） 101.57s 响应时间（最大） 55.36s 答案错误: 14 额外格式: 1 未遵循指令: 1 无答案: 1 反AI技巧 : 3.5 编程 : 5.5 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 5.4 工具调用 : 10.0 常识问答 : 3.0
#200#200	MiMo-V2-Flashnone	4.0	Xiaomi	$0.025 ↑	2.76s
查看模型卡片总测试数 21 错误测试数 17 可靠性 6.7 尝试通过率 24.2% 不稳定测试 4 输入令牌 36,851 输出令牌 68,882 推理令牌 0 响应时间（平均） 2.76s 响应时间（总计） 46.99s 响应时间（最大） 19.68s 答案错误: 13 未遵循指令: 2 API 错误: 1 额外格式: 1 反AI技巧 : 3.2 编程 : 4.3 综合 : 1.5 数据解析与提取 : 2.9 领域专项 : 5.3 通用智能 : 4.6 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#166#166	Qwen3 Coder Nextnone	5.1	Qwen	$0.025 ↓	9.12s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 25.8% 不稳定测试 1 输入令牌 134,218 输出令牌 11,808 推理令牌 0 响应时间（平均） 9.12s 响应时间（总计） 145.94s 响应时间（最大） 45.14s 答案错误: 14 额外格式: 1 未遵循指令: 1 无答案: 1 反AI技巧 : 3.6 编程 : 4.6 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#165#165	Mistral Small 4none	5.1	Mistral	$0.022	1.20s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 25.8% 不稳定测试 1 输入令牌 104,708 输出令牌 9,812 推理令牌 0 响应时间（平均） 1.20s 响应时间（总计） 26.38s 响应时间（最大） 13.16s 答案错误: 16 未遵循指令: 1 反AI技巧 : 3.4 编程 : 3.7 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#157#157	Mimo V2 Omninone	5.5	Xiaomi	$0.021 ↓	2.44s
查看模型卡片总测试数 21 错误测试数 13 可靠性 10.0 尝试通过率 37.9% 不稳定测试 1 输入令牌 40,852 输出令牌 3,314 推理令牌 0 响应时间（平均） 2.44s 响应时间（总计） 48.81s 响应时间（最大） 6.81s 答案错误: 10 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 3.6 编程 : 4.4 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.1 指令遵循 : 6.5 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#169#169	Qwen3.5-9Bnone	5.1	Qwen	$0.021 ↑	19.17s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 19.7% 不稳定测试 1 输入令牌 144,407 输出令牌 37,484 推理令牌 0 响应时间（平均） 19.17s 响应时间（总计） 421.74s 响应时间（最大） 382.06s 答案错误: 14 未遵循指令: 2 无效工具调用: 2 反AI技巧 : 3.1 编程 : 3.9 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 3.2 工具调用 : 10.0 常识问答 : 3.0
#209#209	Step 3.5 Flashnone	2.3	Stepfun	$0.020	39.03s
查看模型卡片总测试数 12 错误测试数 6 可靠性 10.0 尝试通过率 27.3% 不稳定测试 0 输入令牌 1,971 输出令牌 64,795 推理令牌 0 响应时间（平均） 39.03s 响应时间（总计） 312.26s 响应时间（最大） 114.12s API 错误: 4 未遵循指令: 1 答案错误: 1 反AI技巧 : 10.0 编程 : 9.8 综合 : 1.5 数据解析与提取 : 1.5 领域专项 : 3.3 通用智能 : 4.0 指令遵循 : 5.0 谜题求解 : 0.0 工具调用 : 3.0 常识问答 : 3.0
#121#121	gpt-oss-120bmedium	6.1	OpenAI	$0.019 ↓	21.91s
查看模型卡片总测试数 22 错误测试数 13 可靠性 10.0 尝试通过率 50.0% 不稳定测试 5 输入令牌 108,747 输出令牌 29,772 推理令牌 68,044 响应时间（平均） 21.91s 响应时间（总计） 328.70s 响应时间（最大） 68.16s 答案错误: 9 未遵循指令: 3 无效工具调用: 1 反AI技巧 : 6.7 编程 : 5.9 综合 : 6.5 数据解析与提取 : 6.4 领域专项 : 2.9 通用智能 : 4.3 指令遵循 : 9.9 谜题求解 : 5.3 工具调用 : 9.8 常识问答 : 3.0
#100#100	Hy3 previewmedium	6.5	Tencent	$0.018 ↕	16.28s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 63.6% 不稳定测试 0 输入令牌 27,030 输出令牌 73,544 推理令牌 0 响应时间（平均） 16.28s 响应时间（总计） 293.12s 响应时间（最大） 46.04s API 错误: 3 答案错误: 3 未遵循指令: 1 反AI技巧 : 10.0 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0

←

1 2 3 4 5 6 7

→

快速对比

AI Benchy 排行榜

筛选模型

快速对比