AI Benchy 排行榜

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-18 已评估模型: 206

206/206

排名	模型	分数	公司	总成本	响应时间（平均）	测试正确
#1🥇 #1	Gemini 3 Flash Previewmedium	9.6	Google	$0.742	19.20s
查看模型卡片总测试数 22 错误测试数 1 可靠性 10.0 尝试通过率 98.5% 不稳定测试 1 输入令牌 87,861 输出令牌 5,486 推理令牌 227,164 响应时间（平均） 19.20s 响应时间（总计） 422.42s 响应时间（最大） 117.26s 答案错误: 1 反AI技巧 : 10.0 编程 : 8.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 10.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#2🥈 #2	Gemini 3.5 Flashhigh	9.5	Google	$1.976	15.07s
查看模型卡片总测试数 22 错误测试数 2 可靠性 10.0 尝试通过率 93.9% 不稳定测试 2 输入令牌 107,137 输出令牌 8,777 推理令牌 192,900 响应时间（平均） 15.07s 响应时间（总计） 331.48s 响应时间（最大） 145.92s 无效工具调用: 1 答案错误: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 8.2 数据解析与提取 : 10.0 领域专项 : 7.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 9.8 常识问答 : 10.0
#7#7	Gemini 3.1 Pro Previewmedium	9.2	Google	$1.361	21.47s
查看模型卡片总测试数 22 错误测试数 2 可靠性 10.0 尝试通过率 90.9% 不稳定测试 0 输入令牌 92,287 输出令牌 5,232 推理令牌 92,726 响应时间（平均） 21.47s 响应时间（总计） 322.08s 响应时间（最大） 88.68s 答案错误: 2 反AI技巧 : 10.0 编程 : 7.9 综合 : 9.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#6#6	GPT-5.5low	9.3	OpenAI	$1.253	10.13s
查看模型卡片总测试数 22 错误测试数 3 可靠性 10.0 尝试通过率 86.4% 不稳定测试 0 输入令牌 80,058 输出令牌 5,378 推理令牌 23,040 响应时间（平均） 10.13s 响应时间（总计） 222.82s 响应时间（最大） 56.19s 答案错误: 3 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#9#9	Gemini 3.5 Flashmedium	9.1	Google	$0.642	8.20s
查看模型卡片总测试数 22 错误测试数 3 可靠性 10.0 尝试通过率 87.9% 不稳定测试 1 输入令牌 69,747 输出令牌 2,166 推理令牌 57,436 响应时间（平均） 8.20s 响应时间（总计） 180.47s 响应时间（最大） 76.68s 答案错误: 2 未遵循指令: 1 反AI技巧 : 10.0 编程 : 7.9 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 10.0
#11#11	Gemini 3.5 Flashlow	8.9	Google	$0.433	5.55s
查看模型卡片总测试数 22 错误测试数 3 可靠性 10.0 尝试通过率 87.9% 不稳定测试 1 输入令牌 87,817 输出令牌 2,239 推理令牌 31,182 响应时间（平均） 5.55s 响应时间（总计） 122.19s 响应时间（最大） 53.55s 答案错误: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 7.8 综合 : 8.2 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#92#92	Claude Opus 4.7none	6.6	Anthropic	$0.505	3.02s
查看模型卡片总测试数 19 错误测试数 3 可靠性 10.0 尝试通过率 72.7% 不稳定测试 0 输入令牌 69,576 输出令牌 6,265 推理令牌 0 响应时间（平均） 3.02s 响应时间（总计） 57.44s 响应时间（最大） 18.27s 答案错误: 3 反AI技巧 : 8.3 编程 : 3.3 综合 : 4.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#3🥉 #3	GPT-5.6 Sollow	9.5	OpenAI	$0.971	8.79s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 86.4% 不稳定测试 2 输入令牌 78,571 输出令牌 4,476 推理令牌 14,770 响应时间（平均） 8.79s 响应时间（总计） 193.33s 响应时间（最大） 53.91s 答案错误: 4 反AI技巧 : 8.3 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 10.0
#4#4	GPT-5.6 Solmedium	9.4	OpenAI	$1.316	11.35s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 90.9% 不稳定测试 3 输入令牌 78,997 输出令牌 4,696 推理令牌 26,002 响应时间（平均） 11.35s 响应时间（总计） 249.73s 响应时间（最大） 79.40s 答案错误: 4 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 4.7
#5#5	GPT-5.6 Solhigh	9.4	OpenAI	$1.234	11.73s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 89.4% 不稳定测试 3 输入令牌 79,249 输出令牌 4,855 推理令牌 23,044 响应时间（平均） 11.73s 响应时间（总计） 257.99s 响应时间（最大） 54.79s 答案错误: 4 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 4.7
#8#8	Qwen3.7 Maxmedium	9.2	Qwen	$1.116 ↓	40.57s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 87.9% 不稳定测试 2 输入令牌 106,020 输出令牌 5,748 推理令牌 211,004 响应时间（平均） 40.57s 响应时间（总计） 892.57s 响应时间（最大） 556.06s 答案错误: 3 无效工具调用: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#10#10	GPT-5.5medium	9.0	OpenAI	$4.137	38.42s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 87.9% 不稳定测试 3 输入令牌 80,659 输出令牌 5,617 推理令牌 118,819 响应时间（平均） 38.42s 响应时间（总计） 845.35s 响应时间（最大） 332.10s 答案错误: 4 反AI技巧 : 10.0 编程 : 8.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 2.8
#14#14	Claude Opus 4.8medium	8.8	Anthropic	$1.931	12.49s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 84.9% 不稳定测试 1 输入令牌 138,451 输出令牌 40,766 推理令牌 9,075 响应时间（平均） 12.49s 响应时间（总计） 274.72s 响应时间（最大） 70.54s 答案错误: 3 无答案: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 9.9 数据解析与提取 : 7.1 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#15#15	Claude Opus 4.7medium	8.7	Anthropic	$1.477	7.61s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 83.3% 不稳定测试 1 输入令牌 145,252 输出令牌 24,948 推理令牌 5,042 响应时间（平均） 7.61s 响应时间（总计） 159.91s 响应时间（最大） 65.40s 答案错误: 3 超时: 1 反AI技巧 : 8.3 编程 : 7.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#159#159	Gemini 3.1 Flash Lite Previewhigh	5.3	Google	$2.310	68.14s
查看模型卡片总测试数 16 错误测试数 3 可靠性不适用尝试通过率 59.1% 不稳定测试 0 输入令牌 28,980 输出令牌 1,283 推理令牌 1,533,310 响应时间（平均） 68.14s 响应时间（总计） 1090.28s 响应时间（最大） 280.52s 答案错误: 2 未遵循指令: 1 反AI技巧 : 7.5 编程 : 0.0 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 0.0
#127#127	Grok 4.20 Betamedium	6.0	X AI	$0.750 ↑	9.75s
查看模型卡片总测试数 18 错误测试数 4 可靠性不适用尝试通过率 66.7% 不稳定测试 1 输入令牌 35,955 输出令牌 1,647 推理令牌 91,565 响应时间（平均） 9.75s 响应时间（总计） 175.48s 响应时间（最大） 31.36s 答案错误: 3 未遵循指令: 1 反AI技巧 : 8.7 编程 : 3.3 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 0.0
#12#12	Grok 4.5high	8.9	X AI	$1.707	76.50s
查看模型卡片总测试数 22 错误测试数 5 可靠性 10.0 尝试通过率 83.3% 不稳定测试 2 输入令牌 151,562 输出令牌 5,655 推理令牌 247,540 响应时间（平均） 76.50s 响应时间（总计） 1683.07s 响应时间（最大） 676.83s 无答案: 2 答案错误: 2 未遵循指令: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.7 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#17#17	Claude Fable 5medium	8.6	Anthropic	$3.478	17.20s
查看模型卡片总测试数 22 错误测试数 5 可靠性 10.0 尝试通过率 78.8% 不稳定测试 1 输入令牌 89,643 输出令牌 41,360 推理令牌 10,269 响应时间（平均） 17.20s 响应时间（总计） 378.41s 响应时间（最大） 80.80s 无答案: 2 答案错误: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#13#13	GPT-5.3-Codexmedium	8.9	OpenAI	$0.920	16.96s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 83.3% 不稳定测试 4 输入令牌 81,268 输出令牌 6,251 推理令牌 49,274 响应时间（平均） 16.96s 响应时间（总计） 373.19s 响应时间（最大） 100.93s 答案错误: 4 未遵循指令: 2 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.6 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0 常识问答 : 2.8
#19#19	Qwen3.6 Max Previewmedium	8.4	Qwen	$1.143 ↓	67.53s
查看模型卡片总测试数 22 错误测试数 6 可靠性 9.9 尝试通过率 80.3% 不稳定测试 3 输入令牌 79,240 输出令牌 5,098 推理令牌 164,842 响应时间（平均） 67.53s 响应时间（总计） 1485.64s 响应时间（最大） 238.07s 答案错误: 5 超时: 1 反AI技巧 : 10.0 编程 : 8.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#20#20	Grok 4.5low	8.4	X AI	$0.935	15.56s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 75.8% 不稳定测试 1 输入令牌 125,596 输出令牌 7,505 推理令牌 106,446 响应时间（平均） 15.56s 响应时间（总计） 342.32s 响应时间（最大） 205.28s 答案错误: 6 反AI技巧 : 10.0 编程 : 10.0 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 6.1 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#22#22	Grok 4.5medium	8.3	X AI	$1.928	61.71s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 78.8% 不稳定测试 3 输入令牌 122,146 输出令牌 5,514 推理令牌 275,053 响应时间（平均） 61.71s 响应时间（总计） 1357.56s 响应时间（最大） 436.38s 答案错误: 6 反AI技巧 : 10.0 编程 : 7.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.5 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#23#23	Claude Sonnet 5medium	8.3	Anthropic	$0.922	12.52s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 80.3% 不稳定测试 3 输入令牌 145,956 输出令牌 52,333 推理令牌 10,874 响应时间（平均） 12.52s 响应时间（总计） 275.42s 响应时间（最大） 66.71s 答案错误: 4 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 9.0 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 4.8 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#33#33	Kimi K3max	8.0	Moonshot AI	$3.112	122.48s
查看模型卡片总测试数 22 错误测试数 6 可靠性 9.1 尝试通过率 75.8% 不稳定测试 1 输入令牌 34,916 输出令牌 2,910 推理令牌 197,529 响应时间（平均） 122.48s 响应时间（总计） 2327.06s 响应时间（最大） 766.58s API 错误: 2 超时: 2 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 6.5 数据解析与提取 : 7.3 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 3.0
#41#41	Claude Opus 4.8low	7.8	Anthropic	$2.077	12.74s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 80.3% 不稳定测试 3 输入令牌 156,525 输出令牌 43,141 推理令牌 8,617 响应时间（平均） 12.74s 响应时间（总计） 280.29s 响应时间（最大） 127.97s 答案错误: 4 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 6.6 综合 : 9.9 数据解析与提取 : 6.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#60#60	Gemini 3 Flash Previewlow	7.4	Google	$0.177	6.28s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 75.8% 不稳定测试 2 输入令牌 123,684 输出令牌 9,572 推理令牌 28,518 响应时间（平均） 6.28s 响应时间（总计） 138.06s 响应时间（最大） 17.13s 答案错误: 6 反AI技巧 : 10.0 编程 : 5.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#38#38	GLM 5.2medium	7.8	Z.ai	$0.068 ↓	23.28s
查看模型卡片总测试数 21 错误测试数 6 可靠性 9.5 尝试通过率 80.3% 不稳定测试 4 输入令牌 37,199 输出令牌 12,261 推理令牌 49,500 响应时间（平均） 23.28s 响应时间（总计） 488.94s 响应时间（最大） 101.36s 答案错误: 3 无答案: 2 超时: 1 反AI技巧 : 10.0 编程 : 8.2 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#42#42	GLM 5medium	7.7	Z.ai	$0.372 ↑	33.54s
查看模型卡片总测试数 21 错误测试数 6 可靠性 10.0 尝试通过率 78.8% 不稳定测试 4 输入令牌 35,224 输出令牌 21,570 推理令牌 102,996 响应时间（平均） 33.54s 响应时间（总计） 435.99s 响应时间（最大） 99.85s 答案错误: 3 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 5.0 数据解析与提取 : 7.1 领域专项 : 3.5 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#16#16	Muse Spark 1.1medium	8.6	Meta	$1.357	24.97s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 72.7% 不稳定测试 2 输入令牌 142,567 输出令牌 7,905 推理令牌 269,225 响应时间（平均） 24.97s 响应时间（总计） 549.31s 响应时间（最大） 165.38s 答案错误: 4 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 8.3 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 10.0 指令遵循 : 6.5 谜题求解 : 7.9 工具调用 : 9.8 常识问答 : 3.0
#18#18	GPT-5.4medium	8.5	OpenAI	$1.533	23.10s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 77.3% 不稳定测试 4 输入令牌 81,127 输出令牌 6,155 推理令牌 82,515 响应时间（平均） 23.10s 响应时间（总计） 508.26s 响应时间（最大） 100.41s 答案错误: 5 未遵循指令: 2 反AI技巧 : 8.3 编程 : 8.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0

1 2 3 4 5 6 7

→

快速对比

Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3 Flash PreviewmediumvsGPT-5.6 Sollow Gemini 3 Flash PreviewmediumvsGPT-5.6 Solmedium Gemini 3 Flash PreviewmediumvsGPT-5.6 Solhigh Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro Previewmedium Gemini 3 Flash PreviewmediumvsNemotron 3 Ultramedium免费可用 Gemini 3 Flash PreviewmediumvsNorth Mini Codemedium免费可用 Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low