AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-20 已评估模型: 210

210/210

排名	模型	分数	公司	总成本	响应时间（平均）
#130#130	Step 3.5 Flashmedium	6.0	Stepfun	$0.108 ↑	174.22s
查看模型卡片总测试数 21 错误测试数 10 可靠性 9.2 尝试通过率 51.5% 不稳定测试 1 输入令牌 65,707 输出令牌 108,561 推理令牌 293,993 响应时间（平均） 174.22s 响应时间（总计） 2613.32s 响应时间（最大） 1597.85s 答案错误: 4 未遵循指令: 3 API 错误: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 2.4 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 8.3 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#71#71	Qwen3.7 Plusnone	7.2	Qwen	$0.106 ↓	12.09s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 50.0% 不稳定测试 0 输入令牌 98,824 输出令牌 58,097 推理令牌 0 响应时间（平均） 12.09s 响应时间（总计） 265.89s 响应时间（最大） 206.03s 答案错误: 10 未遵循指令: 1 反AI技巧 : 6.5 编程 : 5.5 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.3 指令遵循 : 6.3 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#127#127	Qwen3.5-35B-A3Bnone	6.1	Qwen	$0.106 ↓	12.72s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 43.9% 不稳定测试 4 输入令牌 134,521 输出令牌 86,614 推理令牌 0 响应时间（平均） 12.72s 响应时间（总计） 279.90s 响应时间（最大） 209.15s 答案错误: 12 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 3.4 编程 : 5.5 综合 : 3.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 6.5 指令遵循 : 6.3 谜题求解 : 3.7 工具调用 : 10.0 常识问答 : 3.0
#108#108	Ring-2.6-1Tmedium	6.3	Inclusionai	$0.103 ↑	68.74s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 60.6% 不稳定测试 4 输入令牌 113,604 输出令牌 123,079 推理令牌 42,754 响应时间（平均） 68.74s 响应时间（总计） 1374.86s 响应时间（最大） 304.19s 答案错误: 6 API 错误: 2 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 5.3 综合 : 7.3 数据解析与提取 : 6.5 领域专项 : 3.5 通用智能 : 4.1 指令遵循 : 9.8 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#80#80	Seed-2.0-Minimedium	7.0	Bytedance Seed	$0.101	92.53s
查看模型卡片总测试数 22 错误测试数 11 可靠性 8.5 尝试通过率 57.6% 不稳定测试 3 输入令牌 125,467 输出令牌 10,778 推理令牌 209,856 响应时间（平均） 92.53s 响应时间（总计） 1665.50s 响应时间（最大） 301.78s 超时: 5 答案错误: 4 未遵循指令: 1 无答案: 1 反AI技巧 : 6.6 编程 : 5.5 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#167#167	Mistral Small 4medium	5.1	Mistral	$0.096	10.77s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 42.4% 不稳定测试 8 输入令牌 140,494 输出令牌 39,462 推理令牌 92,362 响应时间（平均） 10.77s 响应时间（总计） 236.94s 响应时间（最大） 59.15s 答案错误: 12 API 错误: 2 未遵循指令: 2 无答案: 1 反AI技巧 : 5.6 编程 : 4.4 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 7.3 谜题求解 : 3.4 工具调用 : 10.0 常识问答 : 3.0
#82#82	DeepSeek V4 Pronone	6.9	DeepSeek	$0.096	11.55s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 51.5% 不稳定测试 4 输入令牌 148,069 输出令牌 35,551 推理令牌 0 响应时间（平均） 11.55s 响应时间（总计） 254.11s 响应时间（最大） 119.44s 答案错误: 8 未遵循指令: 2 额外格式: 1 无效工具调用: 1 反AI技巧 : 3.2 编程 : 5.6 综合 : 7.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.0 指令遵循 : 6.3 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#129#129	Nemotron 3 Ultranone	6.1	NVIDIA	$0.095 ↕	3.87s
查看模型卡片总测试数 22 错误测试数 14 可靠性 10.0 尝试通过率 42.4% 不稳定测试 2 输入令牌 101,275 输出令牌 9,474 推理令牌 0 响应时间（平均） 3.87s 响应时间（总计） 85.15s 响应时间（最大） 37.50s 答案错误: 12 API 错误: 1 未遵循指令: 1 反AI技巧 : 3.5 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.0 指令遵循 : 10.0 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#136#136	GPT-5.4 Mininone	5.9	OpenAI	$0.095	1.53s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 33.3% 不稳定测试 3 输入令牌 79,067 输出令牌 7,880 推理令牌 0 响应时间（平均） 1.53s 响应时间（总计） 33.74s 响应时间（最大） 9.92s 答案错误: 13 未遵循指令: 3 反AI技巧 : 3.1 编程 : 5.5 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.8 指令遵循 : 6.3 谜题求解 : 5.4 工具调用 : 3.0 常识问答 : 3.0
#78#78	Mercury 2medium	7.0	Inception	$0.093	2.72s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 51.5% 不稳定测试 3 输入令牌 109,572 输出令牌 10,313 推理令牌 76,806 响应时间（平均） 2.72s 响应时间（总计） 57.12s 响应时间（最大） 14.63s 答案错误: 8 未遵循指令: 3 无效工具调用: 1 反AI技巧 : 6.9 编程 : 8.2 综合 : 6.7 数据解析与提取 : 7.3 领域专项 : 2.9 通用智能 : 4.8 指令遵循 : 10.0 谜题求解 : 5.4 工具调用 : 10.0 常识问答 : 3.0
#103#103	Qwen3.5-27Bnone	6.5	Qwen	$0.090 ↑	4.76s
查看模型卡片总测试数 22 错误测试数 14 可靠性 10.0 尝试通过率 40.9% 不稳定测试 2 输入令牌 102,316 输出令牌 24,321 推理令牌 0 响应时间（平均） 4.76s 响应时间（总计） 104.71s 响应时间（最大） 69.46s 答案错误: 12 未遵循指令: 2 反AI技巧 : 4.8 编程 : 5.8 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 6.3 谜题求解 : 6.7 工具调用 : 10.0 常识问答 : 3.0
#95#95	Gemma 4 26B A4Bmedium	6.6	Google	$0.089 ↓	103.83s
查看模型卡片总测试数 22 错误测试数 8 可靠性 9.4 尝试通过率 66.7% 不稳定测试 2 输入令牌 77,550 输出令牌 28,036 推理令牌 219,491 响应时间（平均） 103.83s 响应时间（总计） 2180.47s 响应时间（最大） 912.19s 答案错误: 3 无答案: 2 超时: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 2.9 综合 : 6.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#152#152	Qwen3.6 27Bnone	5.5	Qwen	$0.087 ↑	10.65s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 45.5% 不稳定测试 6 输入令牌 95,796 输出令牌 16,155 推理令牌 0 响应时间（平均） 10.65s 响应时间（总计） 234.39s 响应时间（最大） 156.31s 答案错误: 11 未遵循指令: 2 无效工具调用: 2 反AI技巧 : 3.8 编程 : 5.5 综合 : 3.2 数据解析与提取 : 7.3 领域专项 : 7.7 通用智能 : 5.2 指令遵循 : 6.2 谜题求解 : 5.3 工具调用 : 9.5 常识问答 : 3.0
#191#191	Grok 4.20 Betanone	4.4	X AI	$0.087 ↓	1.19s
查看模型卡片总测试数 18 错误测试数 12 可靠性不适用尝试通过率 30.3% 不稳定测试 1 输入令牌 40,597 输出令牌 1,657 推理令牌 0 响应时间（平均） 1.19s 响应时间（总计） 21.43s 响应时间（最大） 6.48s 答案错误: 10 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 4.0 编程 : 1.8 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 6.3 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 0.0
#89#89	Gemini 3 Flash Previewnone	6.8	Google	$0.085	2.95s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 65.2% 不稳定测试 3 输入令牌 104,210 输出令牌 10,710 推理令牌 0 响应时间（平均） 2.95s 响应时间（总计） 44.26s 响应时间（最大） 21.19s 答案错误: 8 无答案: 1 反AI技巧 : 8.3 编程 : 5.5 综合 : 3.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#101#101	MiMo-V2.5medium	6.5	Xiaomi	$0.082 ↓	32.20s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 69.7% 不稳定测试 6 输入令牌 105,447 输出令牌 7,120 推理令牌 230,682 响应时间（平均） 32.20s 响应时间（总计） 708.46s 响应时间（最大） 162.44s 答案错误: 5 额外格式: 2 未遵循指令: 1 无效工具调用: 1 无答案: 1 反AI技巧 : 10.0 编程 : 6.2 综合 : 8.7 数据解析与提取 : 2.7 领域专项 : 5.3 通用智能 : 5.4 指令遵循 : 9.9 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#76#76	DeepSeek V3.2medium	7.0	DeepSeek	$0.078 ↑	68.62s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 65.2% 不稳定测试 7 输入令牌 101,047 输出令牌 11,834 推理令牌 117,014 响应时间（平均） 68.62s 响应时间（总计） 1509.53s 响应时间（最大） 376.10s 答案错误: 5 API 错误: 2 超时: 2 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 8.2 编程 : 6.0 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.4 指令遵循 : 10.0 谜题求解 : 7.0 工具调用 : 10.0 常识问答 : 3.0
#144#144	KAT-Coder-Air V2.5high	5.6	Kwaipilot	$0.077	15.90s
查看模型卡片总测试数 22 错误测试数 15 可靠性 9.9 尝试通过率 43.9% 不稳定测试 6 输入令牌 50,470 输出令牌 3,957 推理令牌 111,374 响应时间（平均） 15.90s 响应时间（总计） 349.71s 响应时间（最大） 118.35s 答案错误: 9 API 错误: 3 额外格式: 3 反AI技巧 : 6.9 编程 : 4.3 综合 : 6.5 数据解析与提取 : 6.5 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 9.8 谜题求解 : 3.5 工具调用 : 10.0 常识问答 : 3.0
#125#125	Qwen3.5-Flashnone	6.1	Qwen	$0.073 ↓	25.28s
查看模型卡片总测试数 22 错误测试数 14 可靠性 10.0 尝试通过率 39.4% 不稳定测试 2 输入令牌 282,347 输出令牌 209,201 推理令牌 0 响应时间（平均） 25.28s 响应时间（总计） 556.24s 响应时间（最大） 480.96s 答案错误: 13 无效工具调用: 1 反AI技巧 : 3.5 编程 : 5.5 综合 : 2.9 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 6.3 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#107#107	Qwen3.5 Plus 2026-02-15none	6.4	Qwen	$0.073 ↓	9.85s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 48.5% 不稳定测试 2 输入令牌 102,646 输出令牌 29,370 推理令牌 0 响应时间（平均） 9.85s 响应时间（总计） 157.63s 响应时间（最大） 123.00s 答案错误: 12 反AI技巧 : 4.8 编程 : 4.3 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#185#185	Grok 4.1 Fastmedium	4.7	X AI	$0.069 ↑	23.85s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 53.0% 不稳定测试 6 输入令牌 42,845 输出令牌 2,006 推理令牌 96,334 响应时间（平均） 23.85s 响应时间（总计） 286.16s 响应时间（最大） 121.79s 未遵循指令: 4 答案错误: 4 无答案: 1 超时: 1 反AI技巧 : 8.7 编程 : 7.8 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 5.8 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 2.8 常识问答 : 3.0
#154#154	MiMo-V2.5-Pronone	5.5	Xiaomi	$0.068 ↓	4.12s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 37.9% 不稳定测试 4 输入令牌 124,799 输出令牌 15,362 推理令牌 0 响应时间（平均） 4.12s 响应时间（总计） 90.55s 响应时间（最大） 53.13s 答案错误: 11 未遵循指令: 4 无答案: 1 反AI技巧 : 3.3 编程 : 4.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 6.4 谜题求解 : 6.7 工具调用 : 10.0 常识问答 : 3.0
#102#102	Laguna XS 2.1medium	6.5	Poolside	$0.068	47.93s
查看模型卡片总测试数 22 错误测试数 13 可靠性 10.0 尝试通过率 42.4% 不稳定测试 1 输入令牌 118,989 输出令牌 30,750 推理令牌 491,833 响应时间（平均） 47.93s 响应时间（总计） 1054.49s 响应时间（最大） 422.72s 答案错误: 11 无效工具调用: 1 无答案: 1 反AI技巧 : 4.8 编程 : 5.5 综合 : 6.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.0 指令遵循 : 9.8 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#182#182	KAT-Coder-Air V2.5none	4.8	Kwaipilot	$0.067	12.17s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 37.9% 不稳定测试 8 输入令牌 69,367 输出令牌 93,913 推理令牌 0 响应时间（平均） 12.17s 响应时间（总计） 267.83s 响应时间（最大） 121.05s 答案错误: 13 额外格式: 3 API 错误: 1 反AI技巧 : 5.3 编程 : 3.3 综合 : 3.8 数据解析与提取 : 6.3 领域专项 : 2.9 通用智能 : 5.0 指令遵循 : 9.9 谜题求解 : 2.9 工具调用 : 10.0 常识问答 : 3.0
#116#116	Seed-2.0-Litenone	6.2	Bytedance Seed	$0.066	4.40s
查看模型卡片总测试数 22 错误测试数 14 可靠性 10.0 尝试通过率 43.9% 不稳定测试 4 输入令牌 142,197 输出令牌 14,746 推理令牌 0 响应时间（平均） 4.40s 响应时间（总计） 96.84s 响应时间（最大） 44.58s 答案错误: 13 无答案: 1 反AI技巧 : 3.0 编程 : 5.6 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#124#124	Qwen3.6 Flashnone	6.1	Qwen	$0.062 ↓	3.74s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 34.9% 不稳定测试 1 输入令牌 139,788 输出令牌 30,947 推理令牌 0 响应时间（平均） 3.74s 响应时间（总计） 82.38s 响应时间（最大） 48.79s 答案错误: 12 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 3.1 编程 : 5.4 综合 : 3.8 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.3 谜题求解 : 3.5 工具调用 : 10.0 常识问答 : 3.0
#161#161	Qwen3.6 35B A3Bnone	5.3	Qwen	$0.061 ↑	5.52s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 31.8% 不稳定测试 6 输入令牌 93,979 输出令牌 46,957 推理令牌 0 响应时间（平均） 5.52s 响应时间（总计） 110.40s 响应时间（最大） 39.54s 答案错误: 13 API 错误: 2 未遵循指令: 2 无答案: 1 反AI技巧 : 3.6 编程 : 5.5 综合 : 3.8 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.4 指令遵循 : 6.2 谜题求解 : 3.2 工具调用 : 3.0 常识问答 : 3.0
#197#197	Grok 4.20none	4.1	X AI	$0.057 ↓	1.11s
查看模型卡片总测试数 18 错误测试数 12 可靠性不适用尝试通过率 27.3% 不稳定测试 0 输入令牌 41,313 输出令牌 1,923 推理令牌 0 响应时间（平均） 1.11s 响应时间（总计） 19.96s 响应时间（最大） 6.04s 答案错误: 10 额外格式: 1 无效工具调用: 1 反AI技巧 : 4.8 编程 : 1.1 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.8 指令遵循 : 6.3 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 0.0
#173#173	DeepSeek V3.2none	5.0	DeepSeek	$0.054 ↑	18.25s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 37.9% 不稳定测试 6 输入令牌 135,780 输出令牌 42,097 推理令牌 0 响应时间（平均） 18.25s 响应时间（总计） 401.60s 响应时间（最大） 115.89s 答案错误: 7 API 错误: 4 额外格式: 2 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 3.2 编程 : 3.1 综合 : 4.8 数据解析与提取 : 6.3 领域专项 : 2.9 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#106#106	Gemini 3.1 Flash Lite Previewnone	6.4	Google	$0.052	1.58s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 57.6% 不稳定测试 1 输入令牌 120,942 输出令牌 14,292 推理令牌 0 响应时间（平均） 1.58s 响应时间（总计） 34.72s 响应时间（最大） 9.27s 答案错误: 7 未遵循指令: 2 无答案: 1 反AI技巧 : 7.5 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0

←

1 2 3 4 5 6 7

→

快速对比

AI Benchy 排行榜

筛选模型

快速对比