AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-20 已评估模型: 210

210/210

排名	模型	分数	公司	总成本	响应时间（平均）
#107#107	Qwen3.5 Plus 2026-02-15none	6.4	Qwen	$0.073 ↓	9.85s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 48.5% 不稳定测试 2 输入令牌 102,646 输出令牌 29,370 推理令牌 0 响应时间（平均） 9.85s 响应时间（总计） 157.63s 响应时间（最大） 123.00s 答案错误: 12 反AI技巧 : 4.8 编程 : 4.3 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#115#115	Gemma 4 31Bnone	6.2	Google	$0.035 ↑	5.34s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 48.5% 不稳定测试 1 输入令牌 125,728 输出令牌 13,317 推理令牌 0 响应时间（平均） 5.34s 响应时间（总计） 106.82s 响应时间（最大） 29.95s 答案错误: 9 API 错误: 2 未遵循指令: 1 反AI技巧 : 6.5 编程 : 5.5 综合 : 3.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 6.5 谜题求解 : 6.5 工具调用 : 3.0 常识问答 : 3.0
#117#117	GPT-5.6 Lunalow	6.2	OpenAI	$0.249	5.04s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 56.1% 不稳定测试 5 输入令牌 96,346 输出令牌 8,211 推理令牌 17,227 响应时间（平均） 5.04s 响应时间（总计） 110.88s 响应时间（最大） 19.44s 答案错误: 10 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 8.3 编程 : 5.5 综合 : 2.8 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 5.0 指令遵循 : 8.5 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#120#120	Gemini 3.1 Flash Liteminimal	6.1	Google	$0.047	1.86s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 51.5% 不稳定测试 3 输入令牌 119,065 输出令牌 11,118 推理令牌 0 响应时间（平均） 1.86s 响应时间（总计） 40.88s 响应时间（最大） 12.97s 答案错误: 8 未遵循指令: 3 无答案: 1 反AI技巧 : 8.3 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#123#123	Inklinglow	6.1	Thinkingmachines	$0.187	5.15s
查看模型卡片总测试数 22 错误测试数 12 可靠性 9.9 尝试通过率 54.6% 不稳定测试 4 输入令牌 109,884 输出令牌 8,579 推理令牌 10,343 响应时间（平均） 5.15s 响应时间（总计） 113.39s 响应时间（最大） 41.58s 答案错误: 8 未遵循指令: 2 无效工具调用: 2 反AI技巧 : 8.3 编程 : 5.1 综合 : 2.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 6.4 工具调用 : 3.0 常识问答 : 3.0
#175#175	Qwen3.6 Plus Previewmedium	4.9	Qwen	$0.000	15.25s
查看模型卡片总测试数 19 错误测试数 10 可靠性不适用尝试通过率 40.9% 不稳定测试 0 输入令牌 32,639 输出令牌 1,153 推理令牌 62,197 响应时间（平均） 15.25s 响应时间（总计） 182.96s 响应时间（最大） 43.55s API 错误: 8 答案错误: 2 反AI技巧 : 8.3 编程 : 9.8 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 3.0 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#185#185	Grok 4.1 Fastmedium	4.7	X AI	$0.069 ↑	23.85s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 53.0% 不稳定测试 6 输入令牌 42,845 输出令牌 2,006 推理令牌 96,334 响应时间（平均） 23.85s 响应时间（总计） 286.16s 响应时间（最大） 121.79s 未遵循指令: 4 答案错误: 4 无答案: 1 超时: 1 反AI技巧 : 8.7 编程 : 7.8 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 5.8 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 2.8 常识问答 : 3.0
#186#186	Laguna M.1medium	4.7	Poolside	$0.033 ↕	14.73s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 45.5% 不稳定测试 2 输入令牌 44,969 输出令牌 58,087 推理令牌 0 响应时间（平均） 14.73s 响应时间（总计） 220.93s 响应时间（最大） 53.14s API 错误: 4 答案错误: 4 未遵循指令: 1 无答案: 1 反AI技巧 : 6.5 编程 : 1.5 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#134#134	Mimo V2 Omnimedium	5.9	Xiaomi	$0.683 ↓	41.16s
查看模型卡片总测试数 21 错误测试数 11 可靠性 10.0 尝试通过率 53.0% 不稳定测试 3 输入令牌 37,007 输出令牌 1,952 推理令牌 357,306 响应时间（平均） 41.16s 响应时间（总计） 823.26s 响应时间（最大） 299.23s 答案错误: 5 未遵循指令: 2 无答案: 2 API 错误: 1 额外格式: 1 反AI技巧 : 10.0 编程 : 3.3 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.4 指令遵循 : 8.3 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#153#153	Hy3 previewlow	5.5	Tencent	$0.015 ↕	24.56s
查看模型卡片总测试数 21 错误测试数 11 可靠性 10.0 尝试通过率 50.0% 不稳定测试 2 输入令牌 21,045 输出令牌 63,460 推理令牌 0 响应时间（平均） 24.56s 响应时间（总计） 368.35s 响应时间（最大） 78.74s API 错误: 7 答案错误: 4 反AI技巧 : 8.3 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.9 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 2.8 常识问答 : 3.0
#62#62	KAT-Coder-Pro V2.5low	7.4	Kwaipilot	$0.387	19.47s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 69.7% 不稳定测试 8 输入令牌 87,673 输出令牌 7,166 推理令牌 101,474 响应时间（平均） 19.47s 响应时间（总计） 428.31s 响应时间（最大） 209.15s 答案错误: 10 API 错误: 1 反AI技巧 : 6.9 编程 : 7.8 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 4.1 指令遵循 : 10.0 谜题求解 : 6.4 工具调用 : 10.0 常识问答 : 3.0
#69#69	KAT-Coder-Pro V2.5high	7.2	Kwaipilot	$0.482	20.83s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 6 输入令牌 106,076 输出令牌 9,071 推理令牌 127,093 响应时间（平均） 20.83s 响应时间（总计） 458.31s 响应时间（最大） 199.97s 答案错误: 10 无效工具调用: 1 反AI技巧 : 7.0 编程 : 6.4 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 9.9 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#71#71	Qwen3.7 Plusnone	7.2	Qwen	$0.106 ↓	12.09s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 50.0% 不稳定测试 0 输入令牌 98,824 输出令牌 58,097 推理令牌 0 响应时间（平均） 12.09s 响应时间（总计） 265.89s 响应时间（最大） 206.03s 答案错误: 10 未遵循指令: 1 反AI技巧 : 6.5 编程 : 5.5 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.3 指令遵循 : 6.3 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#76#76	DeepSeek V3.2medium	7.0	DeepSeek	$0.078 ↑	68.62s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 65.2% 不稳定测试 7 输入令牌 101,047 输出令牌 11,834 推理令牌 117,014 响应时间（平均） 68.62s 响应时间（总计） 1509.53s 响应时间（最大） 376.10s 答案错误: 5 API 错误: 2 超时: 2 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 8.2 编程 : 6.0 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.4 指令遵循 : 10.0 谜题求解 : 7.0 工具调用 : 10.0 常识问答 : 3.0
#80#80	Seed-2.0-Minimedium	7.0	Bytedance Seed	$0.101	92.53s
查看模型卡片总测试数 22 错误测试数 11 可靠性 8.5 尝试通过率 57.6% 不稳定测试 3 输入令牌 125,467 输出令牌 10,778 推理令牌 209,856 响应时间（平均） 92.53s 响应时间（总计） 1665.50s 响应时间（最大） 301.78s 超时: 5 答案错误: 4 未遵循指令: 1 无答案: 1 反AI技巧 : 6.6 编程 : 5.5 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#81#81	KAT-Coder-Pro V2.5medium	6.9	Kwaipilot	$0.467	24.04s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 7 输入令牌 87,907 输出令牌 7,213 推理令牌 128,251 响应时间（平均） 24.04s 响应时间（总计） 528.92s 响应时间（最大） 257.00s 答案错误: 9 API 错误: 1 未遵循指令: 1 反AI技巧 : 8.2 编程 : 7.8 综合 : 6.4 数据解析与提取 : 7.3 领域专项 : 2.9 通用智能 : 4.7 指令遵循 : 9.9 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#83#83	GPT-5.6 Solnone	6.9	OpenAI	$0.524	2.16s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 59.1% 不稳定测试 3 输入令牌 78,593 输出令牌 4,357 推理令牌 0 响应时间（平均） 2.16s 响应时间（总计） 47.62s 响应时间（最大） 12.81s 答案错误: 10 未遵循指令: 1 反AI技巧 : 8.3 编程 : 5.5 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 6.5 指令遵循 : 8.5 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#86#86	Step 3.7 Flashhigh	6.9	Stepfun	$1.207	64.68s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 5 输入令牌 98,691 输出令牌 1,032,395 推理令牌 0 响应时间（平均） 64.68s 响应时间（总计） 1423.01s 响应时间（最大） 364.99s 答案错误: 6 无答案: 4 无效工具调用: 1 反AI技巧 : 10.0 编程 : 4.0 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 5.5 指令遵循 : 9.8 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#87#87	GPT-5.5none	6.9	OpenAI	$0.544	2.36s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 56.1% 不稳定测试 3 输入令牌 79,285 输出令牌 4,915 推理令牌 0 响应时间（平均） 2.36s 响应时间（总计） 51.88s 响应时间（最大） 12.24s 答案错误: 11 反AI技巧 : 6.9 编程 : 5.5 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 6.2 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#92#92	KAT-Coder-Pro V2.5none	6.7	Kwaipilot	$0.476	25.56s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 68.2% 不稳定测试 7 输入令牌 98,499 输出令牌 135,861 推理令牌 0 响应时间（平均） 25.56s 响应时间（总计） 562.43s 响应时间（最大） 335.41s 答案错误: 10 无效工具调用: 1 反AI技巧 : 8.7 编程 : 6.1 综合 : 4.1 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.8 指令遵循 : 9.8 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#108#108	Ring-2.6-1Tmedium	6.3	Inclusionai	$0.103 ↑	68.74s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 60.6% 不稳定测试 4 输入令牌 113,604 输出令牌 123,079 推理令牌 42,754 响应时间（平均） 68.74s 响应时间（总计） 1374.86s 响应时间（最大） 304.19s 答案错误: 6 API 错误: 2 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 5.3 综合 : 7.3 数据解析与提取 : 6.5 领域专项 : 3.5 通用智能 : 4.1 指令遵循 : 9.8 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#119#119	Qwen3.5-35B-A3Bmedium	6.2	Qwen	$0.837 ↓	112.47s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 66.7% 不稳定测试 6 输入令牌 130,388 输出令牌 40,630 推理令牌 786,040 响应时间（平均） 112.47s 响应时间（总计） 2474.28s 响应时间（最大） 950.25s 超时: 5 无答案: 2 答案错误: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 5.9 综合 : 3.8 数据解析与提取 : 7.3 领域专项 : 4.1 通用智能 : 2.8 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#209#209	Step 3.5 Flashnone	2.3	Stepfun	$0.020	39.03s
查看模型卡片总测试数 12 错误测试数 6 可靠性 10.0 尝试通过率 27.3% 不稳定测试 0 输入令牌 1,971 输出令牌 64,795 推理令牌 0 响应时间（平均） 39.03s 响应时间（总计） 312.26s 响应时间（最大） 114.12s API 错误: 4 未遵循指令: 1 答案错误: 1 反AI技巧 : 10.0 编程 : 9.8 综合 : 1.5 数据解析与提取 : 1.5 领域专项 : 3.3 通用智能 : 4.0 指令遵循 : 5.0 谜题求解 : 0.0 工具调用 : 3.0 常识问答 : 3.0
#93#93	GLM 5V Turbomedium	6.7	Z.ai	$0.457	23.08s
查看模型卡片总测试数 21 错误测试数 10 可靠性 10.0 尝试通过率 65.2% 不稳定测试 6 输入令牌 44,615 输出令牌 2,347 推理令牌 98,415 响应时间（平均） 23.08s 响应时间（总计） 484.63s 响应时间（最大） 95.88s 答案错误: 7 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 7.2 编程 : 6.0 综合 : 3.4 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 7.0 常识问答 : 3.0
#130#130	Step 3.5 Flashmedium	6.0	Stepfun	$0.108 ↑	174.22s
查看模型卡片总测试数 21 错误测试数 10 可靠性 9.2 尝试通过率 51.5% 不稳定测试 1 输入令牌 65,707 输出令牌 108,561 推理令牌 293,993 响应时间（平均） 174.22s 响应时间（总计） 2613.32s 响应时间（最大） 1597.85s 答案错误: 4 未遵循指令: 3 API 错误: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 2.4 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 8.3 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#135#135	Hy3 previewhigh	5.9	Tencent	$0.048 ↕	56.57s
查看模型卡片总测试数 21 错误测试数 10 可靠性 10.0 尝试通过率 53.0% 不稳定测试 2 输入令牌 25,987 输出令牌 216,719 推理令牌 0 响应时间（平均） 56.57s 响应时间（总计） 848.59s 响应时间（最大） 149.94s API 错误: 7 答案错误: 3 反AI技巧 : 6.4 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#26#26	GPT-5 Minimedium	8.1	OpenAI	$0.237	27.63s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 63.6% 不稳定测试 3 输入令牌 98,374 输出令牌 14,434 推理令牌 91,498 响应时间（平均） 27.63s 响应时间（总计） 607.92s 响应时间（最大） 111.48s 答案错误: 5 未遵循指令: 3 无答案: 1 超时: 1 反AI技巧 : 7.1 编程 : 10.0 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.5 指令遵循 : 10.0 谜题求解 : 5.6 工具调用 : 10.0 常识问答 : 3.0
#27#27	Muse Spark 1.1high	8.1	Meta	$1.694	31.49s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 69.7% 不稳定测试 6 输入令牌 129,423 输出令牌 8,077 推理令牌 352,421 响应时间（平均） 31.49s 响应时间（总计） 661.28s 响应时间（最大） 196.03s 答案错误: 4 未遵循指令: 2 无效工具调用: 2 API 错误: 1 无答案: 1 反AI技巧 : 7.5 编程 : 10.0 综合 : 5.9 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 7.8 工具调用 : 9.6 常识问答 : 3.0
#47#47	MiniMax M3medium	7.6	Minimax	$0.286	74.98s
查看模型卡片总测试数 22 错误测试数 10 可靠性 9.7 尝试通过率 66.7% 不稳定测试 5 输入令牌 121,990 输出令牌 77,916 推理令牌 173,553 响应时间（平均） 74.98s 响应时间（总计） 1574.56s 响应时间（最大） 431.03s 超时: 3 答案错误: 3 未遵循指令: 2 额外格式: 1 无答案: 1 反AI技巧 : 5.5 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.5 通用智能 : 5.1 指令遵循 : 9.8 谜题求解 : 7.9 工具调用 : 10.0 常识问答 : 3.0
#52#52	Kimi K2.7 Codemedium	7.5	Moonshot AI	$0.751 ↓	84.25s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 65.2% 不稳定测试 4 输入令牌 72,073 输出令牌 83,714 推理令牌 178,793 响应时间（平均） 84.25s 响应时间（总计） 1769.22s 响应时间（最大） 365.80s 答案错误: 5 超时: 3 API 错误: 1 未遵循指令: 1 反AI技巧 : 7.3 编程 : 7.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.5 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 5.9 工具调用 : 3.0 常识问答 : 3.0

←

1 2 3 4 5 6 7

→

快速对比

AI Benchy 排行榜

筛选模型

快速对比