AI Benchy 排行榜

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-18 已评估模型: 206

206/206

排名	模型	分数	公司	总成本	响应时间（平均）	测试正确
#126#126	Step 3.5 Flashmedium	6.0	Stepfun	$0.108 ↑	174.22s
查看模型卡片总测试数 21 错误测试数 10 可靠性 9.2 尝试通过率 51.5% 不稳定测试 1 输入令牌 65,707 输出令牌 108,561 推理令牌 293,993 响应时间（平均） 174.22s 响应时间（总计） 2613.32s 响应时间（最大） 1597.85s 答案错误: 4 未遵循指令: 3 API 错误: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 2.4 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 8.3 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#190#190	GLM 4.7 Flashmedium	4.3	Z.ai	$0.166	142.59s
查看模型卡片总测试数 22 错误测试数 18 可靠性 7.8 尝试通过率 31.8% 不稳定测试 8 输入令牌 79,051 输出令牌 43,754 推理令牌 374,109 响应时间（平均） 142.59s 响应时间（总计） 1996.21s 响应时间（最大） 1539.97s 答案错误: 9 无答案: 3 未遵循指令: 2 无效工具调用: 2 超时: 2 反AI技巧 : 4.7 编程 : 3.2 综合 : 2.9 数据解析与提取 : 6.3 领域专项 : 3.5 通用智能 : 3.6 指令遵循 : 6.2 谜题求解 : 2.9 工具调用 : 10.0 常识问答 : 3.0
#133#133	North Mini Codemedium	5.9	Cohere	$0.000	137.11s
查看模型卡片总测试数 22 错误测试数 13 可靠性 8.6 尝试通过率 48.5% 不稳定测试 4 输入令牌 81,813 输出令牌 424,772 推理令牌 1,342,029 响应时间（平均） 137.11s 响应时间（总计） 3016.42s 响应时间（最大） 786.72s 答案错误: 9 额外格式: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 8.4 编程 : 4.5 综合 : 2.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.1 指令遵循 : 9.8 谜题求解 : 3.3 工具调用 : 10.0 常识问答 : 3.0
#33#33	Kimi K3max	8.0	Moonshot AI	$3.112	122.48s
查看模型卡片总测试数 22 错误测试数 6 可靠性 9.1 尝试通过率 75.8% 不稳定测试 1 输入令牌 34,916 输出令牌 2,910 推理令牌 197,529 响应时间（平均） 122.48s 响应时间（总计） 2327.06s 响应时间（最大） 766.58s API 错误: 2 超时: 2 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 6.5 数据解析与提取 : 7.3 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 3.0
#115#115	Qwen3.5-35B-A3Bmedium	6.2	Qwen	$0.837 ↓	112.47s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 66.7% 不稳定测试 6 输入令牌 130,388 输出令牌 40,630 推理令牌 786,040 响应时间（平均） 112.47s 响应时间（总计） 2474.28s 响应时间（最大） 950.25s 超时: 5 无答案: 2 答案错误: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 5.9 综合 : 3.8 数据解析与提取 : 7.3 领域专项 : 4.1 通用智能 : 2.8 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#58#58	Qwen3.5-27Bmedium	7.4	Qwen	$1.627 ↑	111.94s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 72.7% 不稳定测试 5 输入令牌 111,635 输出令牌 15,999 推理令牌 598,430 响应时间（平均） 111.94s 响应时间（总计） 2462.67s 响应时间（最大） 1026.43s 答案错误: 4 未遵循指令: 2 额外格式: 1 无效工具调用: 1 超时: 1 反AI技巧 : 8.7 编程 : 6.2 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#67#67	Kimi K2.6medium	7.2	Moonshot AI	$1.222 ↑	109.98s
查看模型卡片总测试数 22 错误测试数 10 可靠性 9.4 尝试通过率 63.6% 不稳定测试 4 输入令牌 68,902 输出令牌 111,680 推理令牌 279,860 响应时间（平均） 109.98s 响应时间（总计） 2309.56s 响应时间（最大） 876.20s 超时: 3 答案错误: 3 未遵循指令: 2 无效工具调用: 1 无答案: 1 反AI技巧 : 7.0 编程 : 5.7 综合 : 6.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#96#96	Qwen3.6 27Bmedium	6.5	Qwen	$0.779 ↑	106.32s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 59.1% 不稳定测试 6 输入令牌 106,167 输出令牌 32,889 推理令牌 241,303 响应时间（平均） 106.32s 响应时间（总计） 2339.12s 响应时间（最大） 1085.11s 答案错误: 6 无答案: 3 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 8.3 编程 : 7.7 综合 : 6.7 数据解析与提取 : 3.5 领域专项 : 2.9 通用智能 : 6.5 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#93#93	Gemma 4 26B A4Bmedium	6.6	Google	$0.082 ↓	103.83s
查看模型卡片总测试数 22 错误测试数 8 可靠性 9.4 尝试通过率 66.7% 不稳定测试 2 输入令牌 77,550 输出令牌 28,036 推理令牌 219,491 响应时间（平均） 103.83s 响应时间（总计） 2180.47s 响应时间（最大） 912.19s 答案错误: 3 无答案: 2 超时: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 2.9 综合 : 6.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#76#76	Kimi K2.5medium	7.0	Moonshot AI	$0.600 ↑	99.00s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 65.2% 不稳定测试 8 输入令牌 118,448 输出令牌 62,124 推理令牌 165,243 响应时间（平均） 99.00s 响应时间（总计） 1485.04s 响应时间（最大） 281.00s 答案错误: 5 未遵循指令: 2 无答案: 2 超时: 2 无效工具调用: 1 反AI技巧 : 7.3 编程 : 6.1 综合 : 6.7 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 6.5 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#79#79	Seed-2.0-Minimedium	7.0	Bytedance Seed	$0.101	92.53s
查看模型卡片总测试数 22 错误测试数 11 可靠性 8.5 尝试通过率 57.6% 不稳定测试 3 输入令牌 125,467 输出令牌 10,778 推理令牌 209,856 响应时间（平均） 92.53s 响应时间（总计） 1665.50s 响应时间（最大） 301.78s 超时: 5 答案错误: 4 未遵循指令: 1 无答案: 1 反AI技巧 : 6.6 编程 : 5.5 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#57#57	Qwen3.5 Plus 2026-02-15medium	7.5	Qwen	$0.437 ↓	89.19s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 4 输入令牌 113,560 输出令牌 9,823 推理令牌 250,881 响应时间（平均） 89.19s 响应时间（总计） 1337.92s 响应时间（最大） 304.85s 答案错误: 4 超时: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 8.2 编程 : 6.6 综合 : 6.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#110#110	Qwen3.5-Flashmedium	6.2	Qwen	$0.139 ↓	84.82s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 69.7% 不稳定测试 6 输入令牌 118,499 输出令牌 12,284 推理令牌 490,610 响应时间（平均） 84.82s 响应时间（总计） 1781.22s 响应时间（最大） 515.38s 答案错误: 4 超时: 3 API 错误: 1 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 3.7 综合 : 6.4 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#52#52	Kimi K2.7 Codemedium	7.5	Moonshot AI	$0.871 ↑	84.25s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 65.2% 不稳定测试 4 输入令牌 72,073 输出令牌 83,714 推理令牌 178,793 响应时间（平均） 84.25s 响应时间（总计） 1769.22s 响应时间（最大） 365.80s 答案错误: 5 超时: 3 API 错误: 1 未遵循指令: 1 反AI技巧 : 7.3 编程 : 7.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.5 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 5.9 工具调用 : 3.0 常识问答 : 3.0
#200#200	Qwen3.5-9Bmedium	3.8	Qwen	$0.036 ↑	82.24s
查看模型卡片总测试数 22 错误测试数 19 可靠性 5.0 尝试通过率 25.8% 不稳定测试 5 输入令牌 17,070 输出令牌 29,045 推理令牌 209,516 响应时间（平均） 82.24s 响应时间（总计） 1315.88s 响应时间（最大） 226.38s 超时: 12 无答案: 2 答案错误: 2 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 5.1 编程 : 2.9 综合 : 3.0 数据解析与提取 : 3.6 领域专项 : 3.6 通用智能 : 2.8 指令遵循 : 6.5 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#46#46	DeepSeek V4 Prohigh	7.7	DeepSeek	$0.200	79.14s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 63.6% 不稳定测试 6 输入令牌 90,748 输出令牌 10,462 推理令牌 178,719 响应时间（平均） 79.14s 响应时间（总计） 1740.97s 响应时间（最大） 416.76s 答案错误: 6 未遵循指令: 2 API 错误: 1 额外格式: 1 无答案: 1 超时: 1 反AI技巧 : 5.7 编程 : 6.3 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 7.8 谜题求解 : 6.9 工具调用 : 9.8 常识问答 : 3.0
#12#12	Grok 4.5high	8.9	X AI	$1.707	76.50s
查看模型卡片总测试数 22 错误测试数 5 可靠性 10.0 尝试通过率 83.3% 不稳定测试 2 输入令牌 151,562 输出令牌 5,655 推理令牌 247,540 响应时间（平均） 76.50s 响应时间（总计） 1683.07s 响应时间（最大） 676.83s 无答案: 2 答案错误: 2 未遵循指令: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.7 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#107#107	Gemma 4 31Bmedium	6.3	Google	$0.107 ↓	75.38s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 68.2% 不稳定测试 2 输入令牌 94,992 输出令牌 34,468 推理令牌 223,278 响应时间（平均） 75.38s 响应时间（总计） 1507.52s 响应时间（最大） 437.40s API 错误: 2 超时: 2 答案错误: 2 无效工具调用: 1 无答案: 1 反AI技巧 : 10.0 编程 : 4.3 综合 : 2.9 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 9.9 工具调用 : 3.0 常识问答 : 3.0
#47#47	MiniMax M3medium	7.6	Minimax	$0.286	74.98s
查看模型卡片总测试数 22 错误测试数 10 可靠性 9.7 尝试通过率 66.7% 不稳定测试 5 输入令牌 121,990 输出令牌 77,916 推理令牌 173,553 响应时间（平均） 74.98s 响应时间（总计） 1574.56s 响应时间（最大） 431.03s 超时: 3 答案错误: 3 未遵循指令: 2 额外格式: 1 无答案: 1 反AI技巧 : 5.5 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.5 通用智能 : 5.1 指令遵循 : 9.8 谜题求解 : 7.9 工具调用 : 10.0 常识问答 : 3.0
#105#105	Ring-2.6-1Tmedium	6.3	Inclusionai	$0.103 ↑	68.74s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 60.6% 不稳定测试 4 输入令牌 113,604 输出令牌 123,079 推理令牌 42,754 响应时间（平均） 68.74s 响应时间（总计） 1374.86s 响应时间（最大） 304.19s 答案错误: 6 API 错误: 2 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 5.3 综合 : 7.3 数据解析与提取 : 6.5 领域专项 : 3.5 通用智能 : 4.1 指令遵循 : 9.8 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#75#75	DeepSeek V3.2medium	7.0	DeepSeek	$0.078 ↑	68.62s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 65.2% 不稳定测试 7 输入令牌 101,047 输出令牌 11,834 推理令牌 117,014 响应时间（平均） 68.62s 响应时间（总计） 1509.53s 响应时间（最大） 376.10s 答案错误: 5 API 错误: 2 超时: 2 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 8.2 编程 : 6.0 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.4 指令遵循 : 10.0 谜题求解 : 7.0 工具调用 : 10.0 常识问答 : 3.0
#186#186	MiniMax M2.5medium	4.6	Minimax	$0.340 ↓	68.27s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 45.5% 不稳定测试 10 输入令牌 142,561 输出令牌 125,442 推理令牌 339,935 响应时间（平均） 68.27s 响应时间（总计） 955.75s 响应时间（最大） 251.36s 答案错误: 7 超时: 4 未遵循指令: 3 无答案: 2 无效工具调用: 1 反AI技巧 : 7.9 编程 : 3.4 综合 : 3.7 数据解析与提取 : 4.6 领域专项 : 2.9 通用智能 : 3.8 指令遵循 : 7.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#159#159	Gemini 3.1 Flash Lite Previewhigh	5.3	Google	$2.310	68.14s
查看模型卡片总测试数 16 错误测试数 3 可靠性不适用尝试通过率 59.1% 不稳定测试 0 输入令牌 28,980 输出令牌 1,283 推理令牌 1,533,310 响应时间（平均） 68.14s 响应时间（总计） 1090.28s 响应时间（最大） 280.52s 答案错误: 2 未遵循指令: 1 反AI技巧 : 7.5 编程 : 0.0 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 0.0
#19#19	Qwen3.6 Max Previewmedium	8.4	Qwen	$1.143 ↓	67.53s
查看模型卡片总测试数 22 错误测试数 6 可靠性 9.9 尝试通过率 80.3% 不稳定测试 3 输入令牌 79,240 输出令牌 5,098 推理令牌 164,842 响应时间（平均） 67.53s 响应时间（总计） 1485.64s 响应时间（最大） 238.07s 答案错误: 5 超时: 1 反AI技巧 : 10.0 编程 : 8.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#85#85	Step 3.7 Flashhigh	6.9	Stepfun	$1.207	64.68s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 5 输入令牌 98,691 输出令牌 1,032,395 推理令牌 0 响应时间（平均） 64.68s 响应时间（总计） 1423.01s 响应时间（最大） 364.99s 答案错误: 6 无答案: 4 无效工具调用: 1 反AI技巧 : 10.0 编程 : 4.0 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 5.5 指令遵循 : 9.8 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#71#71	Qwen3.5-122B-A10Bmedium	7.1	Qwen	$1.046 ↓	64.16s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 4 输入令牌 124,771 输出令牌 44,077 推理令牌 443,141 响应时间（平均） 64.16s 响应时间（总计） 1411.60s 响应时间（最大） 519.30s 答案错误: 5 超时: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 6.0 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.4 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#28#28	Inklinghigh	8.0	Thinkingmachines	$1.006	64.16s
查看模型卡片总测试数 22 错误测试数 7 可靠性 9.8 尝试通过率 77.3% 不稳定测试 3 输入令牌 86,746 输出令牌 6,055 推理令牌 220,791 响应时间（平均） 64.16s 响应时间（总计） 1411.59s 响应时间（最大） 327.51s 答案错误: 4 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 10.0 编程 : 8.5 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 6.9 工具调用 : 3.0 常识问答 : 3.0
#31#31	GLM 5.2high	8.0	Z.ai	$0.296 ↓	62.65s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 3 输入令牌 83,813 输出令牌 69,688 推理令牌 225,659 响应时间（平均） 62.65s 响应时间（总计） 1378.34s 响应时间（最大） 599.43s 超时: 3 答案错误: 3 未遵循指令: 1 无答案: 1 反AI技巧 : 10.0 编程 : 6.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#139#139	Gemini 3.1 Flash Litehigh	5.6	Google	$2.044	61.96s
查看模型卡片总测试数 18 错误测试数 8 可靠性 10.0 尝试通过率 56.1% 不稳定测试 4 输入令牌 29,134 输出令牌 1,984 推理令牌 1,355,583 响应时间（平均） 61.96s 响应时间（总计） 1115.31s 响应时间（最大） 149.23s 答案错误: 4 未遵循指令: 3 无答案: 1 反AI技巧 : 8.7 编程 : 3.3 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 5.0 指令遵循 : 7.3 谜题求解 : 5.7 工具调用 : 10.0 常识问答 : 0.0
#22#22	Grok 4.5medium	8.3	X AI	$1.928	61.71s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 78.8% 不稳定测试 3 输入令牌 122,146 输出令牌 5,514 推理令牌 275,053 响应时间（平均） 61.71s 响应时间（总计） 1357.56s 响应时间（最大） 436.38s 答案错误: 6 反AI技巧 : 10.0 编程 : 7.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.5 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0

1 2 3 4 5 6 7

→

快速对比

Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3 Flash PreviewmediumvsGPT-5.6 Sollow Gemini 3 Flash PreviewmediumvsGPT-5.6 Solmedium Gemini 3 Flash PreviewmediumvsGPT-5.6 Solhigh Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro Previewmedium Gemini 3 Flash PreviewmediumvsNemotron 3 Ultramedium免费可用 Gemini 3 Flash PreviewmediumvsNorth Mini Codemedium免费可用 Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low