AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-20 已评估模型: 210

210/210

排名	模型	分数	公司	总成本	响应时间（平均）
#4#4	GPT-5.6 Solmedium	9.4	OpenAI	$1.316	11.35s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 90.9% 不稳定测试 3 输入令牌 78,997 输出令牌 4,696 推理令牌 26,002 响应时间（平均） 11.35s 响应时间（总计） 249.73s 响应时间（最大） 79.40s 答案错误: 4 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 4.7
#34#34	GPT-5.6 Terrahigh	8.0	OpenAI	$1.055	11.32s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 68.2% 不稳定测试 2 输入令牌 81,047 输出令牌 5,055 推理令牌 51,736 响应时间（平均） 11.32s 响应时间（总计） 249.14s 响应时间（最大） 91.49s 答案错误: 7 无效工具调用: 1 反AI技巧 : 8.3 编程 : 7.6 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#167#167	Mistral Small 4medium	5.1	Mistral	$0.096	10.77s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 42.4% 不稳定测试 8 输入令牌 140,494 输出令牌 39,462 推理令牌 92,362 响应时间（平均） 10.77s 响应时间（总计） 236.94s 响应时间（最大） 59.15s 答案错误: 12 API 错误: 2 未遵循指令: 2 无答案: 1 反AI技巧 : 5.6 编程 : 4.4 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 7.3 谜题求解 : 3.4 工具调用 : 10.0 常识问答 : 3.0
#178#178	Ling-2.6-flashnone	4.9	Inclusionai	$0.002 ↑	10.68s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 30.3% 不稳定测试 2 输入令牌 114,375 输出令牌 14,903 推理令牌 0 响应时间（平均） 10.68s 响应时间（总计） 213.51s 响应时间（最大） 36.03s 答案错误: 9 无效工具调用: 3 API 错误: 2 未遵循指令: 2 反AI技巧 : 6.8 编程 : 5.3 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.0 指令遵循 : 9.8 谜题求解 : 2.9 工具调用 : 3.0 常识问答 : 3.0
#152#152	Qwen3.6 27Bnone	5.5	Qwen	$0.087 ↑	10.65s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 45.5% 不稳定测试 6 输入令牌 95,796 输出令牌 16,155 推理令牌 0 响应时间（平均） 10.65s 响应时间（总计） 234.39s 响应时间（最大） 156.31s 答案错误: 11 未遵循指令: 2 无效工具调用: 2 反AI技巧 : 3.8 编程 : 5.5 综合 : 3.2 数据解析与提取 : 7.3 领域专项 : 7.7 通用智能 : 5.2 指令遵循 : 6.2 谜题求解 : 5.3 工具调用 : 9.5 常识问答 : 3.0
#184#184	Hunter Alphamedium	4.7	OpenRouter	$0.000	10.33s
查看模型卡片总测试数 18 错误测试数 10 可靠性不适用尝试通过率 53.0% 不稳定测试 6 输入令牌 28,927 输出令牌 4,682 推理令牌 17,969 响应时间（平均） 10.33s 响应时间（总计） 175.58s 响应时间（最大） 30.53s 答案错误: 4 未遵循指令: 2 超时: 2 API 错误: 1 额外格式: 1 反AI技巧 : 7.3 编程 : 9.8 综合 : 2.3 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 7.0 指令遵循 : 9.9 谜题求解 : 6.1 工具调用 : 10.0 常识问答 : 0.0
#6#6	GPT-5.5low	9.3	OpenAI	$1.253	10.13s
查看模型卡片总测试数 22 错误测试数 3 可靠性 10.0 尝试通过率 86.4% 不稳定测试 0 输入令牌 80,058 输出令牌 5,378 推理令牌 23,040 响应时间（平均） 10.13s 响应时间（总计） 222.82s 响应时间（最大） 56.19s 答案错误: 3 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#158#158	KAT-Coder-Air V2.5low	5.4	Kwaipilot	$0.041	10.09s
查看模型卡片总测试数 22 错误测试数 15 可靠性 9.9 尝试通过率 45.5% 不稳定测试 7 输入令牌 61,085 输出令牌 5,905 推理令牌 46,990 响应时间（平均） 10.09s 响应时间（总计） 222.03s 响应时间（最大） 86.23s 答案错误: 7 额外格式: 4 API 错误: 2 未遵循指令: 2 反AI技巧 : 7.3 编程 : 3.5 综合 : 6.4 数据解析与提取 : 6.5 领域专项 : 2.9 通用智能 : 5.0 指令遵循 : 9.8 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#79#79	Gemini 3.5 Flashnone	7.0	Google	$1.079	9.93s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 74.2% 不稳定测试 3 输入令牌 13,843 输出令牌 117,518 推理令牌 0 响应时间（平均） 9.93s 响应时间（总计） 178.68s 响应时间（最大） 64.36s API 错误: 4 答案错误: 3 反AI技巧 : 10.0 编程 : 8.8 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 7.6 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 2.8
#148#148	Owl Alphanone	5.6	Openrouter	$0.000	9.88s
查看模型卡片总测试数 21 错误测试数 14 可靠性 10.0 尝试通过率 34.9% 不稳定测试 1 输入令牌 42,283 输出令牌 5,913 推理令牌 0 响应时间（平均） 9.88s 响应时间（总计） 207.38s 响应时间（最大） 47.10s 答案错误: 10 未遵循指令: 3 额外格式: 1 反AI技巧 : 3.4 编程 : 5.6 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 6.4 谜题求解 : 5.4 工具调用 : 10.0 常识问答 : 3.0
#107#107	Qwen3.5 Plus 2026-02-15none	6.4	Qwen	$0.073 ↓	9.85s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 48.5% 不稳定测试 2 输入令牌 102,646 输出令牌 29,370 推理令牌 0 响应时间（平均） 9.85s 响应时间（总计） 157.63s 响应时间（最大） 123.00s 答案错误: 12 反AI技巧 : 4.8 编程 : 4.3 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#131#131	Grok 4.20 Betamedium	6.0	X AI	$0.750 ↑	9.75s
查看模型卡片总测试数 18 错误测试数 4 可靠性不适用尝试通过率 66.7% 不稳定测试 1 输入令牌 35,955 输出令牌 1,647 推理令牌 91,565 响应时间（平均） 9.75s 响应时间（总计） 175.48s 响应时间（最大） 31.36s 答案错误: 3 未遵循指令: 1 反AI技巧 : 8.7 编程 : 3.3 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 0.0
#181#181	Grok 4.20 Multi Agent Betamedium	4.8	X AI	$5.599 ↑	9.69s
查看模型卡片总测试数 18 错误测试数 10 可靠性不适用尝试通过率 48.5% 不稳定测试 5 输入令牌 721,952 输出令牌 294,668 推理令牌 305,374 响应时间（平均） 9.69s 响应时间（总计） 155.07s 响应时间（最大） 35.28s 答案错误: 4 API 错误: 2 额外格式: 2 未遵循指令: 2 反AI技巧 : 6.9 编程 : 3.3 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.8 指令遵循 : 9.8 谜题求解 : 6.7 工具调用 : 3.0 常识问答 : 0.0
#187#187	Qwen3 Coder Nextmedium	4.7	Qwen	$0.032 ↓	9.61s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 27.3% 不稳定测试 3 输入令牌 148,194 输出令牌 19,069 推理令牌 0 响应时间（平均） 9.61s 响应时间（总计） 153.69s 响应时间（最大） 81.80s 答案错误: 13 未遵循指令: 3 无答案: 1 超时: 1 反AI技巧 : 3.5 编程 : 3.7 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 6.3 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#96#96	GLM 5.2none	6.6	Z.ai	$0.151 ↓	9.34s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 59.1% 不稳定测试 2 输入令牌 112,359 输出令牌 14,340 推理令牌 0 响应时间（平均） 9.34s 响应时间（总计） 205.46s 响应时间（最大） 79.65s 答案错误: 8 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 8.3 编程 : 3.7 综合 : 6.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#176#176	GLM 4.7 Flashnone	4.9	Z.ai	$0.016	9.15s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 34.9% 不稳定测试 3 输入令牌 101,504 输出令牌 22,992 推理令牌 0 响应时间（平均） 9.15s 响应时间（总计） 137.18s 响应时间（最大） 97.15s 答案错误: 13 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 5.2 编程 : 4.3 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 7.7 通用智能 : 4.0 指令遵循 : 6.5 谜题求解 : 6.4 工具调用 : 2.8 常识问答 : 3.0
#166#166	Qwen3 Coder Nextnone	5.1	Qwen	$0.025 ↓	9.12s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 25.8% 不稳定测试 1 输入令牌 134,218 输出令牌 11,808 推理令牌 0 响应时间（平均） 9.12s 响应时间（总计） 145.94s 响应时间（最大） 45.14s 答案错误: 14 额外格式: 1 未遵循指令: 1 无答案: 1 反AI技巧 : 3.6 编程 : 4.6 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#133#133	Gemini 3 PRO Previewmedium	6.0	Google	$0.385 ↑	9.05s
查看模型卡片总测试数 21 错误测试数 7 可靠性不适用尝试通过率 63.6% 不稳定测试 0 输入令牌 28,848 输出令牌 1,490 推理令牌 10,102 响应时间（平均） 9.05s 响应时间（总计） 90.53s 响应时间（最大） 26.24s API 错误: 4 答案错误: 3 反AI技巧 : 10.0 编程 : 3.0 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#3🥉 #3	GPT-5.6 Sollow	9.5	OpenAI	$0.971	8.79s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 86.4% 不稳定测试 2 输入令牌 78,571 输出令牌 4,476 推理令牌 14,770 响应时间（平均） 8.79s 响应时间（总计） 193.33s 响应时间（最大） 53.91s 答案错误: 4 反AI技巧 : 8.3 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 10.0
#162#162	Ling-2.6-1Tnone	5.3	Inclusionai	$0.016 ↑	8.58s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 18.2% 不稳定测试 0 输入令牌 106,414 输出令牌 11,555 推理令牌 0 响应时间（平均） 8.58s 响应时间（总计） 163.06s 响应时间（最大） 25.72s 答案错误: 12 API 错误: 3 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 3.4 编程 : 3.8 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 6.4 谜题求解 : 3.1 工具调用 : 3.0 常识问答 : 3.0
#149#149	KAT-Coder-Air V2.5medium	5.6	Kwaipilot	$0.048	8.42s
查看模型卡片总测试数 22 错误测试数 14 可靠性 9.9 尝试通过率 45.5% 不稳定测试 3 输入令牌 51,472 输出令牌 7,822 推理令牌 58,352 响应时间（平均） 8.42s 响应时间（总计） 185.24s 响应时间（最大） 48.19s 答案错误: 11 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 8.7 编程 : 3.6 综合 : 6.5 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 10.0 谜题求解 : 3.6 工具调用 : 10.0 常识问答 : 3.0
#9#9	Gemini 3.5 Flashmedium	9.1	Google	$0.642	8.20s
查看模型卡片总测试数 22 错误测试数 3 可靠性 10.0 尝试通过率 87.9% 不稳定测试 1 输入令牌 69,747 输出令牌 2,166 推理令牌 57,436 响应时间（平均） 8.20s 响应时间（总计） 180.47s 响应时间（最大） 76.68s 答案错误: 2 未遵循指令: 1 反AI技巧 : 10.0 编程 : 7.9 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 10.0
#63#63	Claude Sonnet 4.6none	7.3	Anthropic	$0.661	8.12s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 57.6% 不稳定测试 1 输入令牌 123,264 输出令牌 19,362 推理令牌 0 响应时间（平均） 8.12s 响应时间（总计） 121.78s 响应时间（最大） 51.18s 答案错误: 5 额外格式: 4 未遵循指令: 1 反AI技巧 : 4.8 编程 : 5.5 综合 : 9.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 6.1 指令遵循 : 6.5 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#98#98	Qwen3.6 Max Previewnone	6.6	Qwen	$0.231 ↓	7.82s
查看模型卡片总测试数 22 错误测试数 10 可靠性 9.9 尝试通过率 60.6% 不稳定测试 2 输入令牌 106,339 输出令牌 19,257 推理令牌 0 响应时间（平均） 7.82s 响应时间（总计） 172.01s 响应时间（最大） 102.62s 答案错误: 10 反AI技巧 : 5.2 编程 : 3.8 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 4.3 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#30#30	GPT-5.2 Chatnone	8.0	OpenAI	$0.604	7.65s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 74.2% 不稳定测试 4 输入令牌 101,248 输出令牌 30,424 推理令牌 0 响应时间（平均） 7.65s 响应时间（总计） 168.39s 响应时间（最大） 38.52s 答案错误: 6 未遵循指令: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#156#156	Gemma 4 26B A4Bnone	5.5	Google	$0.015 ↓	7.64s
查看模型卡片总测试数 22 错误测试数 14 可靠性 10.0 尝试通过率 42.4% 不稳定测试 2 输入令牌 131,282 输出令牌 15,781 推理令牌 0 响应时间（平均） 7.64s 响应时间（总计） 167.98s 响应时间（最大） 57.10s 答案错误: 10 未遵循指令: 2 无效工具调用: 1 超时: 1 反AI技巧 : 8.3 编程 : 3.7 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.0 指令遵循 : 6.3 谜题求解 : 6.2 工具调用 : 10.0 常识问答 : 3.0
#15#15	Claude Opus 4.7medium	8.7	Anthropic	$1.477	7.61s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 83.3% 不稳定测试 1 输入令牌 145,252 输出令牌 24,948 推理令牌 5,042 响应时间（平均） 7.61s 响应时间（总计） 159.91s 响应时间（最大） 65.40s 答案错误: 3 超时: 1 反AI技巧 : 8.3 编程 : 7.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#50#50	GPT-5.6 Lunamedium	7.6	OpenAI	$0.352	7.28s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 65.2% 不稳定测试 1 输入令牌 89,676 输出令牌 5,699 推理令牌 37,980 响应时间（平均） 7.28s 响应时间（总计） 160.27s 响应时间（最大） 29.85s 答案错误: 8 反AI技巧 : 8.3 编程 : 5.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.1 指令遵循 : 9.9 谜题求解 : 7.8 工具调用 : 10.0 常识问答 : 3.0
#39#39	GPT-5.6 Terramedium	7.8	OpenAI	$0.676	7.11s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 69.7% 不稳定测试 2 输入令牌 79,175 输出令牌 4,878 推理令牌 26,952 响应时间（平均） 7.11s 响应时间（总计） 156.42s 响应时间（最大） 41.68s 答案错误: 8 反AI技巧 : 8.3 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 10.0 谜题求解 : 8.4 工具调用 : 10.0 常识问答 : 3.0
#54#54	GPT-5.3 Chatnone	7.5	OpenAI	$0.571	6.88s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 68.2% 不稳定测试 5 输入令牌 78,990 输出令牌 30,854 推理令牌 0 响应时间（平均） 6.88s 响应时间（总计） 151.31s 响应时间（最大） 18.33s 答案错误: 7 未遵循指令: 2 反AI技巧 : 6.7 编程 : 5.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.6 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0

←

1 2 3 4 5 6 7

→

快速对比

AI Benchy 排行榜

筛选模型

快速对比