AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-24 已评估模型: 222

222/222

排名	模型	分数	公司	总成本	响应时间（平均）
#146#146	GPT-5.4none	5.8	OpenAI	$0.397	2.07s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 34.9% 不稳定测试 2 输入令牌 108,632 输出令牌 8,321 推理令牌 0 响应时间（平均） 2.07s 响应时间（总计） 45.51s 响应时间（最大） 15.63s 答案错误: 14 未遵循指令: 1 反AI技巧 : 3.2 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 5.6 工具调用 : 10.0 常识问答 : 3.0
#148#148	GLM 5none	5.7	Z.ai	$0.041 ↑	4.03s
查看模型卡片总测试数 21 错误测试数 12 可靠性 10.0 尝试通过率 42.4% 不稳定测试 1 输入令牌 37,135 输出令牌 1,989 推理令牌 0 响应时间（平均） 4.03s 响应时间（总计） 56.37s 响应时间（最大） 11.07s 答案错误: 12 反AI技巧 : 4.8 编程 : 4.0 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#150#150	Qwen3.5-122B-A10Bnone	5.7	Qwen	$0.247 ↓	12.92s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 33.3% 不稳定测试 2 输入令牌 241,566 输出令牌 88,458 推理令牌 0 响应时间（平均） 12.92s 响应时间（总计） 284.21s 响应时间（最大） 212.63s 答案错误: 13 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 4.8 编程 : 3.7 综合 : 5.2 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.0 指令遵循 : 6.3 谜题求解 : 3.8 工具调用 : 10.0 常识问答 : 3.0
#151#151	Gemini 3.1 Flash Litehigh	5.6	Google	$2.044	61.96s
查看模型卡片总测试数 18 错误测试数 8 可靠性 10.0 尝试通过率 56.1% 不稳定测试 4 输入令牌 29,134 输出令牌 1,984 推理令牌 1,355,583 响应时间（平均） 61.96s 响应时间（总计） 1115.31s 响应时间（最大） 149.23s 答案错误: 4 未遵循指令: 3 无答案: 1 反AI技巧 : 8.7 编程 : 3.3 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 5.0 指令遵循 : 7.3 谜题求解 : 5.7 工具调用 : 10.0 常识问答 : 0.0
#153#153	GLM 5V Turbonone	5.6	Z.ai	$0.052	2.99s
查看模型卡片总测试数 21 错误测试数 13 可靠性 10.0 尝试通过率 36.4% 不稳定测试 0 输入令牌 37,100 输出令牌 1,766 推理令牌 0 响应时间（平均） 2.99s 响应时间（总计） 62.74s 响应时间（最大） 6.51s 答案错误: 11 未遵循指令: 2 反AI技巧 : 4.8 编程 : 5.5 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.6 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#154#154	Owl Alphamedium	5.6	Openrouter	$0.000	11.95s
查看模型卡片总测试数 21 错误测试数 13 可靠性 10.0 尝试通过率 37.9% 不稳定测试 1 输入令牌 43,478 输出令牌 2,974 推理令牌 0 响应时间（平均） 11.95s 响应时间（总计） 250.88s 响应时间（最大） 58.63s 答案错误: 10 未遵循指令: 2 API 错误: 1 反AI技巧 : 4.8 编程 : 5.4 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#155#155	Mimo V2 PROnone	5.6	Xiaomi	$0.045 ↓	2.27s
查看模型卡片总测试数 21 错误测试数 14 可靠性 10.0 尝试通过率 39.4% 不稳定测试 3 输入令牌 39,344 输出令牌 2,352 推理令牌 0 响应时间（平均） 2.27s 响应时间（总计） 45.50s 响应时间（最大） 6.58s 答案错误: 11 未遵循指令: 2 API 错误: 1 反AI技巧 : 3.5 编程 : 5.5 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 6.5 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#156#156	Owl Alphanone	5.6	Openrouter	$0.000	9.88s
查看模型卡片总测试数 21 错误测试数 14 可靠性 10.0 尝试通过率 34.9% 不稳定测试 1 输入令牌 42,283 输出令牌 5,913 推理令牌 0 响应时间（平均） 9.88s 响应时间（总计） 207.38s 响应时间（最大） 47.10s 答案错误: 10 未遵循指令: 3 额外格式: 1 反AI技巧 : 3.4 编程 : 5.6 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 6.4 谜题求解 : 5.4 工具调用 : 10.0 常识问答 : 3.0
#158#158	DeepSeek V4 Flashnone	5.6	DeepSeek	$0.044 ↓	36.78s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 31.8% 不稳定测试 4 输入令牌 240,221 输出令牌 100,727 推理令牌 0 响应时间（平均） 36.78s 响应时间（总计） 809.09s 响应时间（最大） 247.27s 答案错误: 12 额外格式: 2 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 3.0 编程 : 4.2 综合 : 4.6 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#159#159	GLM 5.1none	5.5	Z.ai	$0.164 ↓	6.70s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 40.9% 不稳定测试 5 输入令牌 124,209 输出令牌 14,393 推理令牌 0 响应时间（平均） 6.70s 响应时间（总计） 147.38s 响应时间（最大） 61.20s 答案错误: 13 无效工具调用: 1 无答案: 1 反AI技巧 : 4.0 编程 : 3.9 综合 : 2.8 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.0 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#160#160	Qwen3.6 27Bnone	5.5	Qwen	$0.116 ↑	10.65s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 45.5% 不稳定测试 6 输入令牌 95,796 输出令牌 16,155 推理令牌 0 响应时间（平均） 10.65s 响应时间（总计） 234.39s 响应时间（最大） 156.31s 答案错误: 11 未遵循指令: 2 无效工具调用: 2 反AI技巧 : 3.8 编程 : 5.5 综合 : 3.2 数据解析与提取 : 7.3 领域专项 : 7.7 通用智能 : 5.2 指令遵循 : 6.2 谜题求解 : 5.3 工具调用 : 9.5 常识问答 : 3.0
#161#161	Hy3 previewlow	5.5	Tencent	$0.015 ↕	24.56s
查看模型卡片总测试数 21 错误测试数 11 可靠性 10.0 尝试通过率 50.0% 不稳定测试 2 输入令牌 21,045 输出令牌 63,460 推理令牌 0 响应时间（平均） 24.56s 响应时间（总计） 368.35s 响应时间（最大） 78.74s API 错误: 7 答案错误: 4 反AI技巧 : 8.3 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.9 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 2.8 常识问答 : 3.0
#162#162	MiMo-V2.5-Pronone	5.5	Xiaomi	$0.068 ↓	4.12s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 37.9% 不稳定测试 4 输入令牌 124,799 输出令牌 15,362 推理令牌 0 响应时间（平均） 4.12s 响应时间（总计） 90.55s 响应时间（最大） 53.13s 答案错误: 11 未遵循指令: 4 无答案: 1 反AI技巧 : 3.3 编程 : 4.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 6.4 谜题求解 : 6.7 工具调用 : 10.0 常识问答 : 3.0
#163#163	Kimi K2.5none	5.5	Moonshot AI	$0.127 ↑	19.15s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 34.9% 不稳定测试 4 输入令牌 89,322 输出令牌 26,638 推理令牌 0 响应时间（平均） 19.15s 响应时间（总计） 287.30s 响应时间（最大） 102.83s 答案错误: 15 无答案: 1 反AI技巧 : 3.6 编程 : 5.5 综合 : 2.8 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.5 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#164#164	Gemma 4 26B A4Bnone	5.5	Google	$0.022 ↑	7.64s
查看模型卡片总测试数 22 错误测试数 14 可靠性 10.0 尝试通过率 42.4% 不稳定测试 2 输入令牌 131,282 输出令牌 15,781 推理令牌 0 响应时间（平均） 7.64s 响应时间（总计） 167.98s 响应时间（最大） 57.10s 答案错误: 10 未遵循指令: 2 无效工具调用: 1 超时: 1 反AI技巧 : 8.3 编程 : 3.7 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.0 指令遵循 : 6.3 谜题求解 : 6.2 工具调用 : 10.0 常识问答 : 3.0
#165#165	Mimo V2 Omninone	5.5	Xiaomi	$0.021 ↓	2.44s
查看模型卡片总测试数 21 错误测试数 13 可靠性 10.0 尝试通过率 37.9% 不稳定测试 1 输入令牌 40,852 输出令牌 3,314 推理令牌 0 响应时间（平均） 2.44s 响应时间（总计） 48.81s 响应时间（最大） 6.81s 答案错误: 10 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 3.6 编程 : 4.4 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.1 指令遵循 : 6.5 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#168#168	GPT-5.6 Lunanone	5.4	OpenAI	$0.142	1.50s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 34.9% 不稳定测试 3 输入令牌 101,323 输出令牌 6,709 推理令牌 0 响应时间（平均） 1.50s 响应时间（总计） 32.91s 响应时间（最大） 10.57s 答案错误: 14 额外格式: 1 无效工具调用: 1 反AI技巧 : 4.8 编程 : 3.8 综合 : 3.2 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.0 指令遵循 : 7.1 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#170#170	Laguna XS 2.1none	5.3	Poolside	$0.008	1.55s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 30.3% 不稳定测试 3 输入令牌 91,598 输出令牌 13,377 推理令牌 0 响应时间（平均） 1.55s 响应时间（总计） 34.19s 响应时间（最大） 19.02s 答案错误: 14 未遵循指令: 1 无效工具调用: 1 超时: 1 反AI技巧 : 5.3 编程 : 4.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.0 指令遵循 : 3.8 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#171#171	Qwen3.6 35B A3Bnone	5.3	Qwen	$0.061 ↑	5.52s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 31.8% 不稳定测试 6 输入令牌 93,979 输出令牌 46,957 推理令牌 0 响应时间（平均） 5.52s 响应时间（总计） 110.40s 响应时间（最大） 39.54s 答案错误: 13 API 错误: 2 未遵循指令: 2 无答案: 1 反AI技巧 : 3.6 编程 : 5.5 综合 : 3.8 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.4 指令遵循 : 6.2 谜题求解 : 3.2 工具调用 : 3.0 常识问答 : 3.0
#172#172	Ling-2.6-1Tnone	5.3	Inclusionai	$0.016 ↑	8.58s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 18.2% 不稳定测试 0 输入令牌 106,414 输出令牌 11,555 推理令牌 0 响应时间（平均） 8.58s 响应时间（总计） 163.06s 响应时间（最大） 25.72s 答案错误: 12 API 错误: 3 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 3.4 编程 : 3.8 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 6.4 谜题求解 : 3.1 工具调用 : 3.0 常识问答 : 3.0
#175#175	Mistral Small 4none	5.1	Mistral	$0.022	1.20s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 25.8% 不稳定测试 1 输入令牌 104,708 输出令牌 9,812 推理令牌 0 响应时间（平均） 1.20s 响应时间（总计） 26.38s 响应时间（最大） 13.16s 答案错误: 16 未遵循指令: 1 反AI技巧 : 3.4 编程 : 3.7 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#176#176	Qwen3 Coder Nextnone	5.1	Qwen	$0.025 ↓	9.12s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 25.8% 不稳定测试 1 输入令牌 134,218 输出令牌 11,808 推理令牌 0 响应时间（平均） 9.12s 响应时间（总计） 145.94s 响应时间（最大） 45.14s 答案错误: 14 额外格式: 1 未遵循指令: 1 无答案: 1 反AI技巧 : 3.6 编程 : 4.6 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#177#177	Mistral Small 4medium	5.1	Mistral	$0.096	10.77s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 42.4% 不稳定测试 8 输入令牌 140,494 输出令牌 39,462 推理令牌 92,362 响应时间（平均） 10.77s 响应时间（总计） 236.94s 响应时间（最大） 59.15s 答案错误: 12 API 错误: 2 未遵循指令: 2 无答案: 1 反AI技巧 : 5.6 编程 : 4.4 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 7.3 谜题求解 : 3.4 工具调用 : 10.0 常识问答 : 3.0
#178#178	MiMo-V2.5none	5.1	Xiaomi	$0.025 ↓	4.62s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 25.8% 不稳定测试 1 输入令牌 141,043 输出令牌 16,464 推理令牌 0 响应时间（平均） 4.62s 响应时间（总计） 101.57s 响应时间（最大） 55.36s 答案错误: 14 额外格式: 1 未遵循指令: 1 无答案: 1 反AI技巧 : 3.5 编程 : 5.5 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 5.4 工具调用 : 10.0 常识问答 : 3.0
#179#179	Qwen3.5-9Bnone	5.1	Qwen	$0.021 ↑	19.17s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 19.7% 不稳定测试 1 输入令牌 144,407 输出令牌 37,484 推理令牌 0 响应时间（平均） 19.17s 响应时间（总计） 421.74s 响应时间（最大） 382.06s 答案错误: 14 未遵循指令: 2 无效工具调用: 2 反AI技巧 : 3.1 编程 : 3.9 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 3.2 工具调用 : 10.0 常识问答 : 3.0
#180#180	GLM 5 Turbonone	5.1	Z.ai	$0.047 ↑	2.82s
查看模型卡片总测试数 21 错误测试数 15 可靠性 10.0 尝试通过率 30.3% 不稳定测试 2 输入令牌 32,525 输出令牌 1,815 推理令牌 0 响应时间（平均） 2.82s 响应时间（总计） 59.29s 响应时间（最大） 8.21s 答案错误: 13 未遵循指令: 2 反AI技巧 : 3.0 编程 : 3.9 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 5.5 工具调用 : 10.0 常识问答 : 3.0
#182#182	MiniMax M2.7medium	5.0	Minimax	$0.163 ↓	41.28s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 45.5% 不稳定测试 9 输入令牌 114,518 输出令牌 18,558 推理令牌 119,036 响应时间（平均） 41.28s 响应时间（总计） 866.81s 响应时间（最大） 196.21s 答案错误: 6 未遵循指令: 5 无答案: 2 超时: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 7.9 编程 : 5.7 综合 : 3.8 数据解析与提取 : 6.3 领域专项 : 3.0 通用智能 : 3.9 指令遵循 : 3.8 谜题求解 : 5.9 工具调用 : 4.7 常识问答 : 3.0
#184#184	DeepSeek V3.2none	5.0	DeepSeek	$0.054 ↑	18.25s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 37.9% 不稳定测试 6 输入令牌 135,780 输出令牌 42,097 推理令牌 0 响应时间（平均） 18.25s 响应时间（总计） 401.60s 响应时间（最大） 115.89s 答案错误: 7 API 错误: 4 额外格式: 2 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 3.2 编程 : 3.1 综合 : 4.8 数据解析与提取 : 6.3 领域专项 : 2.9 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#185#185	GPT-4o-mininone	5.0	OpenAI	$0.010	1.99s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 22.7% 不稳定测试 0 输入令牌 53,136 输出令牌 2,911 推理令牌 0 响应时间（平均） 1.99s 响应时间（总计） 29.86s 响应时间（最大） 7.58s 答案错误: 15 未遵循指令: 1 无答案: 1 反AI技巧 : 4.8 编程 : 3.2 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.0 指令遵循 : 6.3 谜题求解 : 3.5 工具调用 : 10.0 常识问答 : 3.0
#187#187	GLM 4.7 Flashnone	4.9	Z.ai	$0.016	9.15s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 34.9% 不稳定测试 3 输入令牌 101,504 输出令牌 22,992 推理令牌 0 响应时间（平均） 9.15s 响应时间（总计） 137.18s 响应时间（最大） 97.15s 答案错误: 13 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 5.2 编程 : 4.3 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 7.7 通用智能 : 4.0 指令遵循 : 6.5 谜题求解 : 6.4 工具调用 : 2.8 常识问答 : 3.0

←

1 4 5 6 8

→

快速对比

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

AI Benchy 排行榜

筛选模型

快速对比