AI Benchy 排行榜

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-18 已评估模型: 206

206/206

排名	模型	分数	公司	总成本	响应时间（平均）	测试正确
#177#177	Grok 4.20 Multi Agent Betamedium	4.8	X AI	$5.599 ↑	9.69s
查看模型卡片总测试数 18 错误测试数 10 可靠性不适用尝试通过率 48.5% 不稳定测试 5 输入令牌 721,952 输出令牌 294,668 推理令牌 305,374 响应时间（平均） 9.69s 响应时间（总计） 155.07s 响应时间（最大） 35.28s 答案错误: 4 API 错误: 2 额外格式: 2 未遵循指令: 2 反AI技巧 : 6.9 编程 : 3.3 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.8 指令遵循 : 9.8 谜题求解 : 6.7 工具调用 : 3.0 常识问答 : 0.0
#10#10	GPT-5.5medium	9.0	OpenAI	$4.137	38.42s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 87.9% 不稳定测试 3 输入令牌 80,659 输出令牌 5,617 推理令牌 118,819 响应时间（平均） 38.42s 响应时间（总计） 845.35s 响应时间（最大） 332.10s 答案错误: 4 反AI技巧 : 10.0 编程 : 8.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 2.8
#17#17	Claude Fable 5medium	8.6	Anthropic	$3.478	17.20s
查看模型卡片总测试数 22 错误测试数 5 可靠性 10.0 尝试通过率 78.8% 不稳定测试 1 输入令牌 89,643 输出令牌 41,360 推理令牌 10,269 响应时间（平均） 17.20s 响应时间（总计） 378.41s 响应时间（最大） 80.80s 无答案: 2 答案错误: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#33#33	Kimi K3max	8.0	Moonshot AI	$3.112	122.48s
查看模型卡片总测试数 22 错误测试数 6 可靠性 9.1 尝试通过率 75.8% 不稳定测试 1 输入令牌 34,916 输出令牌 2,910 推理令牌 197,529 响应时间（平均） 122.48s 响应时间（总计） 2327.06s 响应时间（最大） 766.58s API 错误: 2 超时: 2 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 6.5 数据解析与提取 : 7.3 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 3.0
#43#43	Claude Opus 4.6medium	7.7	Anthropic	$3.059	34.27s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 63.6% 不稳定测试 3 输入令牌 108,615 输出令牌 72,286 推理令牌 28,315 响应时间（平均） 34.27s 响应时间（总计） 513.99s 响应时间（最大） 151.51s 额外格式: 5 答案错误: 3 未遵循指令: 1 反AI技巧 : 6.4 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#159#159	Gemini 3.1 Flash Lite Previewhigh	5.3	Google	$2.310	68.14s
查看模型卡片总测试数 16 错误测试数 3 可靠性不适用尝试通过率 59.1% 不稳定测试 0 输入令牌 28,980 输出令牌 1,283 推理令牌 1,533,310 响应时间（平均） 68.14s 响应时间（总计） 1090.28s 响应时间（最大） 280.52s 答案错误: 2 未遵循指令: 1 反AI技巧 : 7.5 编程 : 0.0 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 0.0
#41#41	Claude Opus 4.8low	7.8	Anthropic	$2.077	12.74s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 80.3% 不稳定测试 3 输入令牌 156,525 输出令牌 43,141 推理令牌 8,617 响应时间（平均） 12.74s 响应时间（总计） 280.29s 响应时间（最大） 127.97s 答案错误: 4 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 6.6 综合 : 9.9 数据解析与提取 : 6.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#40#40	Claude Sonnet 4.6medium	7.8	Anthropic	$2.057	25.91s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 66.7% 不稳定测试 2 输入令牌 106,292 输出令牌 80,748 推理令牌 35,117 响应时间（平均） 25.91s 响应时间（总计） 362.78s 响应时间（最大） 140.96s 答案错误: 4 额外格式: 3 超时: 1 反AI技巧 : 6.5 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#139#139	Gemini 3.1 Flash Litehigh	5.6	Google	$2.044	61.96s
查看模型卡片总测试数 18 错误测试数 8 可靠性 10.0 尝试通过率 56.1% 不稳定测试 4 输入令牌 29,134 输出令牌 1,984 推理令牌 1,355,583 响应时间（平均） 61.96s 响应时间（总计） 1115.31s 响应时间（最大） 149.23s 答案错误: 4 未遵循指令: 3 无答案: 1 反AI技巧 : 8.7 编程 : 3.3 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 5.0 指令遵循 : 7.3 谜题求解 : 5.7 工具调用 : 10.0 常识问答 : 0.0
#2🥈 #2	Gemini 3.5 Flashhigh	9.5	Google	$1.976	15.07s
查看模型卡片总测试数 22 错误测试数 2 可靠性 10.0 尝试通过率 93.9% 不稳定测试 2 输入令牌 107,137 输出令牌 8,777 推理令牌 192,900 响应时间（平均） 15.07s 响应时间（总计） 331.48s 响应时间（最大） 145.92s 无效工具调用: 1 答案错误: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 8.2 数据解析与提取 : 10.0 领域专项 : 7.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 9.8 常识问答 : 10.0
#14#14	Claude Opus 4.8medium	8.8	Anthropic	$1.931	12.49s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 84.9% 不稳定测试 1 输入令牌 138,451 输出令牌 40,766 推理令牌 9,075 响应时间（平均） 12.49s 响应时间（总计） 274.72s 响应时间（最大） 70.54s 答案错误: 3 无答案: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 9.9 数据解析与提取 : 7.1 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#22#22	Grok 4.5medium	8.3	X AI	$1.928	61.71s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 78.8% 不稳定测试 3 输入令牌 122,146 输出令牌 5,514 推理令牌 275,053 响应时间（平均） 61.71s 响应时间（总计） 1357.56s 响应时间（最大） 436.38s 答案错误: 6 反AI技巧 : 10.0 编程 : 7.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.5 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#12#12	Grok 4.5high	8.9	X AI	$1.707	76.50s
查看模型卡片总测试数 22 错误测试数 5 可靠性 10.0 尝试通过率 83.3% 不稳定测试 2 输入令牌 151,562 输出令牌 5,655 推理令牌 247,540 响应时间（平均） 76.50s 响应时间（总计） 1683.07s 响应时间（最大） 676.83s 无答案: 2 答案错误: 2 未遵循指令: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.7 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#27#27	Muse Spark 1.1high	8.1	Meta	$1.694	31.49s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 69.7% 不稳定测试 6 输入令牌 129,423 输出令牌 8,077 推理令牌 352,421 响应时间（平均） 31.49s 响应时间（总计） 661.28s 响应时间（最大） 196.03s 答案错误: 4 未遵循指令: 2 无效工具调用: 2 API 错误: 1 无答案: 1 反AI技巧 : 7.5 编程 : 10.0 综合 : 5.9 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 7.8 工具调用 : 9.6 常识问答 : 3.0
#58#58	Qwen3.5-27Bmedium	7.4	Qwen	$1.627 ↑	111.94s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 72.7% 不稳定测试 5 输入令牌 111,635 输出令牌 15,999 推理令牌 598,430 响应时间（平均） 111.94s 响应时间（总计） 2462.67s 响应时间（最大） 1026.43s 答案错误: 4 未遵循指令: 2 额外格式: 1 无效工具调用: 1 超时: 1 反AI技巧 : 8.7 编程 : 6.2 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#18#18	GPT-5.4medium	8.5	OpenAI	$1.533	23.10s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 77.3% 不稳定测试 4 输入令牌 81,127 输出令牌 6,155 推理令牌 82,515 响应时间（平均） 23.10s 响应时间（总计） 508.26s 响应时间（最大） 100.41s 答案错误: 5 未遵循指令: 2 反AI技巧 : 8.3 编程 : 8.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#15#15	Claude Opus 4.7medium	8.7	Anthropic	$1.477	7.61s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 83.3% 不稳定测试 1 输入令牌 145,252 输出令牌 24,948 推理令牌 5,042 响应时间（平均） 7.61s 响应时间（总计） 159.91s 响应时间（最大） 65.40s 答案错误: 3 超时: 1 反AI技巧 : 8.3 编程 : 7.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#7#7	Gemini 3.1 Pro Previewmedium	9.2	Google	$1.361	21.47s
查看模型卡片总测试数 22 错误测试数 2 可靠性 10.0 尝试通过率 90.9% 不稳定测试 0 输入令牌 92,287 输出令牌 5,232 推理令牌 92,726 响应时间（平均） 21.47s 响应时间（总计） 322.08s 响应时间（最大） 88.68s 答案错误: 2 反AI技巧 : 10.0 编程 : 7.9 综合 : 9.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#16#16	Muse Spark 1.1medium	8.6	Meta	$1.357	24.97s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 72.7% 不稳定测试 2 输入令牌 142,567 输出令牌 7,905 推理令牌 269,225 响应时间（平均） 24.97s 响应时间（总计） 549.31s 响应时间（最大） 165.38s 答案错误: 4 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 8.3 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 10.0 指令遵循 : 6.5 谜题求解 : 7.9 工具调用 : 9.8 常识问答 : 3.0
#4#4	GPT-5.6 Solmedium	9.4	OpenAI	$1.316	11.35s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 90.9% 不稳定测试 3 输入令牌 78,997 输出令牌 4,696 推理令牌 26,002 响应时间（平均） 11.35s 响应时间（总计） 249.73s 响应时间（最大） 79.40s 答案错误: 4 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 4.7
#6#6	GPT-5.5low	9.3	OpenAI	$1.253	10.13s
查看模型卡片总测试数 22 错误测试数 3 可靠性 10.0 尝试通过率 86.4% 不稳定测试 0 输入令牌 80,058 输出令牌 5,378 推理令牌 23,040 响应时间（平均） 10.13s 响应时间（总计） 222.82s 响应时间（最大） 56.19s 答案错误: 3 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#5#5	GPT-5.6 Solhigh	9.4	OpenAI	$1.234	11.73s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 89.4% 不稳定测试 3 输入令牌 79,249 输出令牌 4,855 推理令牌 23,044 响应时间（平均） 11.73s 响应时间（总计） 257.99s 响应时间（最大） 54.79s 答案错误: 4 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 4.7
#67#67	Kimi K2.6medium	7.2	Moonshot AI	$1.222 ↑	109.98s
查看模型卡片总测试数 22 错误测试数 10 可靠性 9.4 尝试通过率 63.6% 不稳定测试 4 输入令牌 68,902 输出令牌 111,680 推理令牌 279,860 响应时间（平均） 109.98s 响应时间（总计） 2309.56s 响应时间（最大） 876.20s 超时: 3 答案错误: 3 未遵循指令: 2 无效工具调用: 1 无答案: 1 反AI技巧 : 7.0 编程 : 5.7 综合 : 6.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#85#85	Step 3.7 Flashhigh	6.9	Stepfun	$1.207	64.68s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 5 输入令牌 98,691 输出令牌 1,032,395 推理令牌 0 响应时间（平均） 64.68s 响应时间（总计） 1423.01s 响应时间（最大） 364.99s 答案错误: 6 无答案: 4 无效工具调用: 1 反AI技巧 : 10.0 编程 : 4.0 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 5.5 指令遵循 : 9.8 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#65#65	Claude Opus 4.8none	7.3	Anthropic	$1.166	4.91s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 63.6% 不稳定测试 2 输入令牌 149,206 输出令牌 16,797 推理令牌 0 响应时间（平均） 4.91s 响应时间（总计） 108.03s 响应时间（最大） 35.03s 答案错误: 4 额外格式: 3 未遵循指令: 1 无答案: 1 反AI技巧 : 6.5 编程 : 5.5 综合 : 9.8 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#19#19	Qwen3.6 Max Previewmedium	8.4	Qwen	$1.143 ↓	67.53s
查看模型卡片总测试数 22 错误测试数 6 可靠性 9.9 尝试通过率 80.3% 不稳定测试 3 输入令牌 79,240 输出令牌 5,098 推理令牌 164,842 响应时间（平均） 67.53s 响应时间（总计） 1485.64s 响应时间（最大） 238.07s 答案错误: 5 超时: 1 反AI技巧 : 10.0 编程 : 8.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#8#8	Qwen3.7 Maxmedium	9.2	Qwen	$1.116 ↓	40.57s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 87.9% 不稳定测试 2 输入令牌 106,020 输出令牌 5,748 推理令牌 211,004 响应时间（平均） 40.57s 响应时间（总计） 892.57s 响应时间（最大） 556.06s 答案错误: 3 无效工具调用: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#48#48	Grok Build 0.1medium	7.6	X AI	$1.097	52.06s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 63.6% 不稳定测试 0 输入令牌 106,751 输出令牌 7,993 推理令牌 486,670 响应时间（平均） 52.06s 响应时间（总计） 1145.27s 响应时间（最大） 252.69s 答案错误: 5 额外格式: 3 反AI技巧 : 8.3 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#78#78	Gemini 3.5 Flashnone	7.0	Google	$1.079	9.93s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 74.2% 不稳定测试 3 输入令牌 13,843 输出令牌 117,518 推理令牌 0 响应时间（平均） 9.93s 响应时间（总计） 178.68s 响应时间（最大） 64.36s API 错误: 4 答案错误: 3 反AI技巧 : 10.0 编程 : 8.8 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 7.6 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 2.8
#34#34	GPT-5.6 Terrahigh	8.0	OpenAI	$1.055	11.32s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 68.2% 不稳定测试 2 输入令牌 81,047 输出令牌 5,055 推理令牌 51,736 响应时间（平均） 11.32s 响应时间（总计） 249.14s 响应时间（最大） 91.49s 答案错误: 7 无效工具调用: 1 反AI技巧 : 8.3 编程 : 7.6 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0

1 2 3 4 5 6 7

→

快速对比

Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3 Flash PreviewmediumvsGPT-5.6 Sollow Gemini 3 Flash PreviewmediumvsGPT-5.6 Solmedium Gemini 3 Flash PreviewmediumvsGPT-5.6 Solhigh Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro Previewmedium Gemini 3 Flash PreviewmediumvsNemotron 3 Ultramedium免费可用 Gemini 3 Flash PreviewmediumvsNorth Mini Codemedium免费可用 Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low