AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-18 已评估模型: 206

206/206

排名	模型	分数	公司	总成本	响应时间（平均）
#102#102	Gemini 3.1 Flash Litelow	6.5	Google	$0.621	16.26s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 59.1% 不稳定测试 2 输入令牌 94,224 输出令牌 7,759 推理令牌 390,126 响应时间（平均） 16.26s 响应时间（总计） 357.64s 响应时间（最大） 318.02s 答案错误: 9 无效工具调用: 1 反AI技巧 : 7.3 编程 : 5.5 综合 : 3.2 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#103#103	Gemini 3.1 Flash Lite Previewnone	6.4	Google	$0.052	1.58s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 57.6% 不稳定测试 1 输入令牌 120,942 输出令牌 14,292 推理令牌 0 响应时间（平均） 1.58s 响应时间（总计） 34.72s 响应时间（最大） 9.27s 答案错误: 7 未遵循指令: 2 无答案: 1 反AI技巧 : 7.5 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#110#110	Qwen3.5-Flashmedium	6.2	Qwen	$0.139 ↓	84.82s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 69.7% 不稳定测试 6 输入令牌 118,499 输出令牌 12,284 推理令牌 490,610 响应时间（平均） 84.82s 响应时间（总计） 1781.22s 响应时间（最大） 515.38s 答案错误: 4 超时: 3 API 错误: 1 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 3.7 综合 : 6.4 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#91#91	GLM 5V Turbomedium	6.7	Z.ai	$0.457	23.08s
查看模型卡片总测试数 21 错误测试数 10 可靠性 10.0 尝试通过率 65.2% 不稳定测试 6 输入令牌 44,615 输出令牌 2,347 推理令牌 98,415 响应时间（平均） 23.08s 响应时间（总计） 484.63s 响应时间（最大） 95.88s 答案错误: 7 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 7.2 编程 : 6.0 综合 : 3.4 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 7.0 常识问答 : 3.0
#126#126	Step 3.5 Flashmedium	6.0	Stepfun	$0.108 ↑	174.22s
查看模型卡片总测试数 21 错误测试数 10 可靠性 9.2 尝试通过率 51.5% 不稳定测试 1 输入令牌 65,707 输出令牌 108,561 推理令牌 293,993 响应时间（平均） 174.22s 响应时间（总计） 2613.32s 响应时间（最大） 1597.85s 答案错误: 4 未遵循指令: 3 API 错误: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 2.4 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 8.3 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#131#131	Hy3 previewhigh	5.9	Tencent	$0.048 ↕	56.57s
查看模型卡片总测试数 21 错误测试数 10 可靠性 10.0 尝试通过率 53.0% 不稳定测试 2 输入令牌 25,987 输出令牌 216,719 推理令牌 0 响应时间（平均） 56.57s 响应时间（总计） 848.59s 响应时间（最大） 149.94s API 错误: 7 答案错误: 3 反AI技巧 : 6.4 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#61#61	KAT-Coder-Pro V2.5low	7.4	Kwaipilot	$0.387	19.47s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 69.7% 不稳定测试 8 输入令牌 87,673 输出令牌 7,166 推理令牌 101,474 响应时间（平均） 19.47s 响应时间（总计） 428.31s 响应时间（最大） 209.15s 答案错误: 10 API 错误: 1 反AI技巧 : 6.9 编程 : 7.8 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 4.1 指令遵循 : 10.0 谜题求解 : 6.4 工具调用 : 10.0 常识问答 : 3.0
#68#68	KAT-Coder-Pro V2.5high	7.2	Kwaipilot	$0.482	20.83s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 6 输入令牌 106,076 输出令牌 9,071 推理令牌 127,093 响应时间（平均） 20.83s 响应时间（总计） 458.31s 响应时间（最大） 199.97s 答案错误: 10 无效工具调用: 1 反AI技巧 : 7.0 编程 : 6.4 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 9.9 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#70#70	Qwen3.7 Plusnone	7.2	Qwen	$0.106 ↓	12.09s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 50.0% 不稳定测试 0 输入令牌 98,824 输出令牌 58,097 推理令牌 0 响应时间（平均） 12.09s 响应时间（总计） 265.89s 响应时间（最大） 206.03s 答案错误: 10 未遵循指令: 1 反AI技巧 : 6.5 编程 : 5.5 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.3 指令遵循 : 6.3 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#75#75	DeepSeek V3.2medium	7.0	DeepSeek	$0.078 ↑	68.62s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 65.2% 不稳定测试 7 输入令牌 101,047 输出令牌 11,834 推理令牌 117,014 响应时间（平均） 68.62s 响应时间（总计） 1509.53s 响应时间（最大） 376.10s 答案错误: 5 API 错误: 2 超时: 2 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 8.2 编程 : 6.0 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.4 指令遵循 : 10.0 谜题求解 : 7.0 工具调用 : 10.0 常识问答 : 3.0
#79#79	Seed-2.0-Minimedium	7.0	Bytedance Seed	$0.101	92.53s
查看模型卡片总测试数 22 错误测试数 11 可靠性 8.5 尝试通过率 57.6% 不稳定测试 3 输入令牌 125,467 输出令牌 10,778 推理令牌 209,856 响应时间（平均） 92.53s 响应时间（总计） 1665.50s 响应时间（最大） 301.78s 超时: 5 答案错误: 4 未遵循指令: 1 无答案: 1 反AI技巧 : 6.6 编程 : 5.5 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#80#80	KAT-Coder-Pro V2.5medium	6.9	Kwaipilot	$0.467	24.04s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 7 输入令牌 87,907 输出令牌 7,213 推理令牌 128,251 响应时间（平均） 24.04s 响应时间（总计） 528.92s 响应时间（最大） 257.00s 答案错误: 9 API 错误: 1 未遵循指令: 1 反AI技巧 : 8.2 编程 : 7.8 综合 : 6.4 数据解析与提取 : 7.3 领域专项 : 2.9 通用智能 : 4.7 指令遵循 : 9.9 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#82#82	GPT-5.6 Solnone	6.9	OpenAI	$0.524	2.16s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 59.1% 不稳定测试 3 输入令牌 78,593 输出令牌 4,357 推理令牌 0 响应时间（平均） 2.16s 响应时间（总计） 47.62s 响应时间（最大） 12.81s 答案错误: 10 未遵循指令: 1 反AI技巧 : 8.3 编程 : 5.5 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 6.5 指令遵循 : 8.5 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#85#85	Step 3.7 Flashhigh	6.9	Stepfun	$1.207	64.68s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 5 输入令牌 98,691 输出令牌 1,032,395 推理令牌 0 响应时间（平均） 64.68s 响应时间（总计） 1423.01s 响应时间（最大） 364.99s 答案错误: 6 无答案: 4 无效工具调用: 1 反AI技巧 : 10.0 编程 : 4.0 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 5.5 指令遵循 : 9.8 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#86#86	GPT-5.5none	6.9	OpenAI	$0.544	2.36s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 56.1% 不稳定测试 3 输入令牌 79,285 输出令牌 4,915 推理令牌 0 响应时间（平均） 2.36s 响应时间（总计） 51.88s 响应时间（最大） 12.24s 答案错误: 11 反AI技巧 : 6.9 编程 : 5.5 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 6.2 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#90#90	KAT-Coder-Pro V2.5none	6.7	Kwaipilot	$0.476	25.56s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 68.2% 不稳定测试 7 输入令牌 98,499 输出令牌 135,861 推理令牌 0 响应时间（平均） 25.56s 响应时间（总计） 562.43s 响应时间（最大） 335.41s 答案错误: 10 无效工具调用: 1 反AI技巧 : 8.7 编程 : 6.1 综合 : 4.1 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.8 指令遵循 : 9.8 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#105#105	Ring-2.6-1Tmedium	6.3	Inclusionai	$0.103 ↑	68.74s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 60.6% 不稳定测试 4 输入令牌 113,604 输出令牌 123,079 推理令牌 42,754 响应时间（平均） 68.74s 响应时间（总计） 1374.86s 响应时间（最大） 304.19s 答案错误: 6 API 错误: 2 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 5.3 综合 : 7.3 数据解析与提取 : 6.5 领域专项 : 3.5 通用智能 : 4.1 指令遵循 : 9.8 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#115#115	Qwen3.5-35B-A3Bmedium	6.2	Qwen	$0.837 ↓	112.47s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 66.7% 不稳定测试 6 输入令牌 130,388 输出令牌 40,630 推理令牌 786,040 响应时间（平均） 112.47s 响应时间（总计） 2474.28s 响应时间（最大） 950.25s 超时: 5 无答案: 2 答案错误: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 5.9 综合 : 3.8 数据解析与提取 : 7.3 领域专项 : 4.1 通用智能 : 2.8 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#205#205	Step 3.5 Flashnone	2.3	Stepfun	$0.020	39.03s
查看模型卡片总测试数 12 错误测试数 6 可靠性 10.0 尝试通过率 27.3% 不稳定测试 0 输入令牌 1,971 输出令牌 64,795 推理令牌 0 响应时间（平均） 39.03s 响应时间（总计） 312.26s 响应时间（最大） 114.12s API 错误: 4 未遵循指令: 1 答案错误: 1 反AI技巧 : 10.0 编程 : 9.8 综合 : 1.5 数据解析与提取 : 1.5 领域专项 : 3.3 通用智能 : 4.0 指令遵循 : 5.0 谜题求解 : 0.0 工具调用 : 3.0 常识问答 : 3.0
#130#130	Mimo V2 Omnimedium	5.9	Xiaomi	$0.683 ↓	41.16s
查看模型卡片总测试数 21 错误测试数 11 可靠性 10.0 尝试通过率 53.0% 不稳定测试 3 输入令牌 37,007 输出令牌 1,952 推理令牌 357,306 响应时间（平均） 41.16s 响应时间（总计） 823.26s 响应时间（最大） 299.23s 答案错误: 5 未遵循指令: 2 无答案: 2 API 错误: 1 额外格式: 1 反AI技巧 : 10.0 编程 : 3.3 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.4 指令遵循 : 8.3 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#149#149	Hy3 previewlow	5.5	Tencent	$0.015 ↕	24.56s
查看模型卡片总测试数 21 错误测试数 11 可靠性 10.0 尝试通过率 50.0% 不稳定测试 2 输入令牌 21,045 输出令牌 63,460 推理令牌 0 响应时间（平均） 24.56s 响应时间（总计） 368.35s 响应时间（最大） 78.74s API 错误: 7 答案错误: 4 反AI技巧 : 8.3 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.9 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 2.8 常识问答 : 3.0
#171#171	Qwen3.6 Plus Previewmedium	4.9	Qwen	$0.000	15.25s
查看模型卡片总测试数 19 错误测试数 10 可靠性不适用尝试通过率 40.9% 不稳定测试 0 输入令牌 32,639 输出令牌 1,153 推理令牌 62,197 响应时间（平均） 15.25s 响应时间（总计） 182.96s 响应时间（最大） 43.55s API 错误: 8 答案错误: 2 反AI技巧 : 8.3 编程 : 9.8 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 3.0 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#181#181	Grok 4.1 Fastmedium	4.7	X AI	$0.069 ↑	23.85s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 53.0% 不稳定测试 6 输入令牌 42,845 输出令牌 2,006 推理令牌 96,334 响应时间（平均） 23.85s 响应时间（总计） 286.16s 响应时间（最大） 121.79s 未遵循指令: 4 答案错误: 4 无答案: 1 超时: 1 反AI技巧 : 8.7 编程 : 7.8 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 5.8 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 2.8 常识问答 : 3.0
#182#182	Laguna M.1medium	4.7	Poolside	$0.033 ↕	14.73s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 45.5% 不稳定测试 2 输入令牌 44,969 输出令牌 58,087 推理令牌 0 响应时间（平均） 14.73s 响应时间（总计） 220.93s 响应时间（最大） 53.14s API 错误: 4 答案错误: 4 未遵循指令: 1 无答案: 1 反AI技巧 : 6.5 编程 : 1.5 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#46#46	DeepSeek V4 Prohigh	7.7	DeepSeek	$0.200	79.14s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 63.6% 不稳定测试 6 输入令牌 90,748 输出令牌 10,462 推理令牌 178,719 响应时间（平均） 79.14s 响应时间（总计） 1740.97s 响应时间（最大） 416.76s 答案错误: 6 未遵循指令: 2 API 错误: 1 额外格式: 1 无答案: 1 超时: 1 反AI技巧 : 5.7 编程 : 6.3 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 7.8 谜题求解 : 6.9 工具调用 : 9.8 常识问答 : 3.0
#76#76	Kimi K2.5medium	7.0	Moonshot AI	$0.600 ↑	99.00s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 65.2% 不稳定测试 8 输入令牌 118,448 输出令牌 62,124 推理令牌 165,243 响应时间（平均） 99.00s 响应时间（总计） 1485.04s 响应时间（最大） 281.00s 答案错误: 5 未遵循指令: 2 无答案: 2 超时: 2 无效工具调用: 1 反AI技巧 : 7.3 编程 : 6.1 综合 : 6.7 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 6.5 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#77#77	Mercury 2medium	7.0	Inception	$0.093	2.72s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 51.5% 不稳定测试 3 输入令牌 109,572 输出令牌 10,313 推理令牌 76,806 响应时间（平均） 2.72s 响应时间（总计） 57.12s 响应时间（最大） 14.63s 答案错误: 8 未遵循指令: 3 无效工具调用: 1 反AI技巧 : 6.9 编程 : 8.2 综合 : 6.7 数据解析与提取 : 7.3 领域专项 : 2.9 通用智能 : 4.8 指令遵循 : 10.0 谜题求解 : 5.4 工具调用 : 10.0 常识问答 : 3.0
#81#81	DeepSeek V4 Pronone	6.9	DeepSeek	$0.096	11.55s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 51.5% 不稳定测试 4 输入令牌 148,069 输出令牌 35,551 推理令牌 0 响应时间（平均） 11.55s 响应时间（总计） 254.11s 响应时间（最大） 119.44s 答案错误: 8 未遵循指令: 2 额外格式: 1 无效工具调用: 1 反AI技巧 : 3.2 编程 : 5.6 综合 : 7.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.0 指令遵循 : 6.3 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#96#96	Qwen3.6 27Bmedium	6.5	Qwen	$0.779 ↑	106.32s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 59.1% 不稳定测试 6 输入令牌 106,167 输出令牌 32,889 推理令牌 241,303 响应时间（平均） 106.32s 响应时间（总计） 2339.12s 响应时间（最大） 1085.11s 答案错误: 6 无答案: 3 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 8.3 编程 : 7.7 综合 : 6.7 数据解析与提取 : 3.5 领域专项 : 2.9 通用智能 : 6.5 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#104#104	Qwen3.5 Plus 2026-02-15none	6.4	Qwen	$0.073 ↓	9.85s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 48.5% 不稳定测试 2 输入令牌 102,646 输出令牌 29,370 推理令牌 0 响应时间（平均） 9.85s 响应时间（总计） 157.63s 响应时间（最大） 123.00s 答案错误: 12 反AI技巧 : 4.8 编程 : 4.3 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0

←

1 2 3 4 5 6 7

→

快速对比

AI Benchy 排行榜

筛选模型

快速对比