AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-18 已评估模型: 206

206/206

排名	模型	分数	公司	总成本	响应时间（平均）
#49#49	GLM 5 Turbomedium	7.6	Z.ai	$0.323 ↑	23.00s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 71.2% 不稳定测试 4 输入令牌 35,593 输出令牌 12,245 推理令牌 62,277 响应时间（平均） 23.00s 响应时间（总计） 482.97s 响应时间（最大） 194.23s 答案错误: 4 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 8.2 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.7 工具调用 : 10.0 常识问答 : 3.0
#106#106	Mimo V2 PROmedium	6.3	Xiaomi	$0.333 ↑	22.16s
查看模型卡片总测试数 21 错误测试数 9 可靠性 9.6 尝试通过率 69.7% 不稳定测试 5 输入令牌 40,961 输出令牌 2,518 推理令牌 81,801 响应时间（平均） 22.16s 响应时间（总计） 443.22s 响应时间（最大） 136.29s 答案错误: 5 API 错误: 1 额外格式: 1 未遵循指令: 1 超时: 1 反AI技巧 : 10.0 编程 : 6.0 综合 : 2.3 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 6.4 工具调用 : 10.0 常识问答 : 3.0
#186#186	MiniMax M2.5medium	4.6	Minimax	$0.340 ↓	68.27s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 45.5% 不稳定测试 10 输入令牌 142,561 输出令牌 125,442 推理令牌 339,935 响应时间（平均） 68.27s 响应时间（总计） 955.75s 响应时间（最大） 251.36s 答案错误: 7 超时: 4 未遵循指令: 3 无答案: 2 无效工具调用: 1 反AI技巧 : 7.9 编程 : 3.4 综合 : 3.7 数据解析与提取 : 4.6 领域专项 : 2.9 通用智能 : 3.8 指令遵循 : 7.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#128#128	GPT-5.6 Terranone	6.0	OpenAI	$0.349	1.65s
查看模型卡片总测试数 22 错误测试数 14 可靠性 10.0 尝试通过率 42.4% 不稳定测试 3 输入令牌 102,259 输出令牌 6,203 推理令牌 0 响应时间（平均） 1.65s 响应时间（总计） 36.28s 响应时间（最大） 10.07s 答案错误: 11 未遵循指令: 1 无效工具调用: 1 无答案: 1 反AI技巧 : 4.8 编程 : 5.5 综合 : 2.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.0 指令遵循 : 8.5 谜题求解 : 5.3 工具调用 : 9.6 常识问答 : 3.0
#50#50	GPT-5.6 Lunamedium	7.6	OpenAI	$0.352	7.28s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 65.2% 不稳定测试 1 输入令牌 89,676 输出令牌 5,699 推理令牌 37,980 响应时间（平均） 7.28s 响应时间（总计） 160.27s 响应时间（最大） 29.85s 答案错误: 8 反AI技巧 : 8.3 编程 : 5.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.1 指令遵循 : 9.9 谜题求解 : 7.8 工具调用 : 10.0 常识问答 : 3.0
#42#42	GLM 5medium	7.7	Z.ai	$0.372 ↑	33.54s
查看模型卡片总测试数 21 错误测试数 6 可靠性 10.0 尝试通过率 78.8% 不稳定测试 4 输入令牌 35,224 输出令牌 21,570 推理令牌 102,996 响应时间（平均） 33.54s 响应时间（总计） 435.99s 响应时间（最大） 99.85s 答案错误: 3 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 5.0 数据解析与提取 : 7.1 领域专项 : 3.5 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#129#129	Gemini 3 PRO Previewmedium	6.0	Google	$0.385 ↑	9.05s
查看模型卡片总测试数 21 错误测试数 7 可靠性不适用尝试通过率 63.6% 不稳定测试 0 输入令牌 28,848 输出令牌 1,490 推理令牌 10,102 响应时间（平均） 9.05s 响应时间（总计） 90.53s 响应时间（最大） 26.24s API 错误: 4 答案错误: 3 反AI技巧 : 10.0 编程 : 3.0 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#61#61	KAT-Coder-Pro V2.5low	7.4	Kwaipilot	$0.387	19.47s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 69.7% 不稳定测试 8 输入令牌 87,673 输出令牌 7,166 推理令牌 101,474 响应时间（平均） 19.47s 响应时间（总计） 428.31s 响应时间（最大） 209.15s 答案错误: 10 API 错误: 1 反AI技巧 : 6.9 编程 : 7.8 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 4.1 指令遵循 : 10.0 谜题求解 : 6.4 工具调用 : 10.0 常识问答 : 3.0
#32#32	Inklingmedium	8.0	Thinkingmachines	$0.391	16.21s
查看模型卡片总测试数 22 错误测试数 7 可靠性 9.8 尝试通过率 78.8% 不稳定测试 5 输入令牌 124,053 输出令牌 12,189 推理令牌 53,597 响应时间（平均） 16.21s 响应时间（总计） 356.54s 响应时间（最大） 85.12s 答案错误: 4 API 错误: 1 无效工具调用: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.4 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 2.8
#135#135	GPT-5.4none	5.8	OpenAI	$0.397	2.07s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 34.9% 不稳定测试 2 输入令牌 108,632 输出令牌 8,321 推理令牌 0 响应时间（平均） 2.07s 响应时间（总计） 45.51s 响应时间（最大） 15.63s 答案错误: 14 未遵循指令: 1 反AI技巧 : 3.2 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 5.6 工具调用 : 10.0 常识问答 : 3.0
#37#37	Qwen3.6 Plusmedium	7.8	Qwen	$0.405 ↑	43.12s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 71.2% 不稳定测试 2 输入令牌 97,689 输出令牌 6,412 推理令牌 184,825 响应时间（平均） 43.12s 响应时间（总计） 905.53s 响应时间（最大） 291.55s 答案错误: 5 API 错误: 1 未遵循指令: 1 反AI技巧 : 10.0 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#11#11	Gemini 3.5 Flashlow	8.9	Google	$0.433	5.55s
查看模型卡片总测试数 22 错误测试数 3 可靠性 10.0 尝试通过率 87.9% 不稳定测试 1 输入令牌 87,817 输出令牌 2,239 推理令牌 31,182 响应时间（平均） 5.55s 响应时间（总计） 122.19s 响应时间（最大） 53.55s 答案错误: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 7.8 综合 : 8.2 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#57#57	Qwen3.5 Plus 2026-02-15medium	7.5	Qwen	$0.437 ↓	89.19s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 4 输入令牌 113,560 输出令牌 9,823 推理令牌 250,881 响应时间（平均） 89.19s 响应时间（总计） 1337.92s 响应时间（最大） 304.85s 答案错误: 4 超时: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 8.2 编程 : 6.6 综合 : 6.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#66#66	Step 3.7 Flashlow	7.3	Stepfun	$0.454	20.68s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 68.2% 不稳定测试 5 输入令牌 103,833 输出令牌 376,581 推理令牌 0 响应时间（平均） 20.68s 响应时间（总计） 455.01s 响应时间（最大） 124.75s 答案错误: 8 无效工具调用: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.2 综合 : 7.3 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 3.4 指令遵循 : 9.8 谜题求解 : 5.5 工具调用 : 10.0 常识问答 : 3.0
#91#91	GLM 5V Turbomedium	6.7	Z.ai	$0.457	23.08s
查看模型卡片总测试数 21 错误测试数 10 可靠性 10.0 尝试通过率 65.2% 不稳定测试 6 输入令牌 44,615 输出令牌 2,347 推理令牌 98,415 响应时间（平均） 23.08s 响应时间（总计） 484.63s 响应时间（最大） 95.88s 答案错误: 7 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 7.2 编程 : 6.0 综合 : 3.4 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 7.0 常识问答 : 3.0
#80#80	KAT-Coder-Pro V2.5medium	6.9	Kwaipilot	$0.467	24.04s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 7 输入令牌 87,907 输出令牌 7,213 推理令牌 128,251 响应时间（平均） 24.04s 响应时间（总计） 528.92s 响应时间（最大） 257.00s 答案错误: 9 API 错误: 1 未遵循指令: 1 反AI技巧 : 8.2 编程 : 7.8 综合 : 6.4 数据解析与提取 : 7.3 领域专项 : 2.9 通用智能 : 4.7 指令遵循 : 9.9 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#90#90	KAT-Coder-Pro V2.5none	6.7	Kwaipilot	$0.476	25.56s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 68.2% 不稳定测试 7 输入令牌 98,499 输出令牌 135,861 推理令牌 0 响应时间（平均） 25.56s 响应时间（总计） 562.43s 响应时间（最大） 335.41s 答案错误: 10 无效工具调用: 1 反AI技巧 : 8.7 编程 : 6.1 综合 : 4.1 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.8 指令遵循 : 9.8 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#68#68	KAT-Coder-Pro V2.5high	7.2	Kwaipilot	$0.482	20.83s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 63.6% 不稳定测试 6 输入令牌 106,076 输出令牌 9,071 推理令牌 127,093 响应时间（平均） 20.83s 响应时间（总计） 458.31s 响应时间（最大） 199.97s 答案错误: 10 无效工具调用: 1 反AI技巧 : 7.0 编程 : 6.4 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 9.9 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#92#92	Claude Opus 4.7none	6.6	Anthropic	$0.505	3.02s
查看模型卡片总测试数 19 错误测试数 3 可靠性 10.0 尝试通过率 72.7% 不稳定测试 0 输入令牌 69,576 输出令牌 6,265 推理令牌 0 响应时间（平均） 3.02s 响应时间（总计） 57.44s 响应时间（最大） 18.27s 答案错误: 3 反AI技巧 : 8.3 编程 : 3.3 综合 : 4.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#29#29	Step 3.7 Flashmedium	8.0	Stepfun	$0.515	26.37s
查看模型卡片总测试数 22 错误测试数 8 可靠性 9.9 尝试通过率 72.7% 不稳定测试 3 输入令牌 114,062 输出令牌 427,572 推理令牌 0 响应时间（平均） 26.37s 响应时间（总计） 580.25s 响应时间（最大） 152.83s 答案错误: 5 未遵循指令: 1 无效工具调用: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 4.0 指令遵循 : 9.8 谜题求解 : 5.7 工具调用 : 10.0 常识问答 : 3.0
#55#55	GPT-5.6 Terralow	7.5	OpenAI	$0.519	5.31s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 74.2% 不稳定测试 6 输入令牌 80,295 输出令牌 4,714 推理令牌 16,469 响应时间（平均） 5.31s 响应时间（总计） 116.82s 响应时间（最大） 19.85s 答案错误: 8 无效工具调用: 1 反AI技巧 : 8.3 编程 : 6.6 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 4.7 常识问答 : 3.0
#82#82	GPT-5.6 Solnone	6.9	OpenAI	$0.524	2.16s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 59.1% 不稳定测试 3 输入令牌 78,593 输出令牌 4,357 推理令牌 0 响应时间（平均） 2.16s 响应时间（总计） 47.62s 响应时间（最大） 12.81s 答案错误: 10 未遵循指令: 1 反AI技巧 : 8.3 编程 : 5.5 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 6.5 指令遵循 : 8.5 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#73#73	GLM 5.1medium	7.1	Z.ai	$0.535 ↓	46.77s
查看模型卡片总测试数 22 错误测试数 9 可靠性 8.3 尝试通过率 69.7% 不稳定测试 4 输入令牌 82,623 输出令牌 16,089 推理令牌 136,463 响应时间（平均） 46.77s 响应时间（总计） 982.16s 响应时间（最大） 308.75s 答案错误: 4 超时: 2 API 错误: 1 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 4.6 综合 : 9.8 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 8.2 工具调用 : 3.0 常识问答 : 3.0
#86#86	GPT-5.5none	6.9	OpenAI	$0.544	2.36s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 56.1% 不稳定测试 3 输入令牌 79,285 输出令牌 4,915 推理令牌 0 响应时间（平均） 2.36s 响应时间（总计） 51.88s 响应时间（最大） 12.24s 答案错误: 11 反AI技巧 : 6.9 编程 : 5.5 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 6.2 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#198#198	Grok Build 0.1none	4.0	X AI	$0.547	28.69s
查看模型卡片总测试数 19 错误测试数 12 可靠性 10.0 尝试通过率 43.9% 不稳定测试 4 输入令牌 11,793 输出令牌 267,275 推理令牌 0 响应时间（平均） 28.69s 响应时间（总计） 459.00s 响应时间（最大） 138.35s 答案错误: 7 API 错误: 3 未遵循指令: 2 反AI技巧 : 8.7 编程 : 3.3 综合 : 1.5 数据解析与提取 : 3.8 领域专项 : 3.6 通用智能 : 4.3 指令遵循 : 9.8 谜题求解 : 6.4 工具调用 : 3.0 常识问答 : 3.0
#108#108	Claude Sonnet 5none	6.3	Anthropic	$0.548	6.04s
查看模型卡片总测试数 22 错误测试数 14 可靠性 10.0 尝试通过率 45.5% 不稳定测试 4 输入令牌 161,035 输出令牌 22,511 推理令牌 0 响应时间（平均） 6.04s 响应时间（总计） 132.85s 响应时间（最大） 33.39s 答案错误: 7 额外格式: 4 无答案: 2 未遵循指令: 1 反AI技巧 : 5.3 编程 : 4.6 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 6.4 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#54#54	GPT-5.3 Chatnone	7.5	OpenAI	$0.571	6.88s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 68.2% 不稳定测试 5 输入令牌 78,990 输出令牌 30,854 推理令牌 0 响应时间（平均） 6.88s 响应时间（总计） 151.31s 响应时间（最大） 18.33s 答案错误: 7 未遵循指令: 2 反AI技巧 : 6.7 编程 : 5.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.6 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#76#76	Kimi K2.5medium	7.0	Moonshot AI	$0.600 ↑	99.00s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 65.2% 不稳定测试 8 输入令牌 118,448 输出令牌 62,124 推理令牌 165,243 响应时间（平均） 99.00s 响应时间（总计） 1485.04s 响应时间（最大） 281.00s 答案错误: 5 未遵循指令: 2 无答案: 2 超时: 2 无效工具调用: 1 反AI技巧 : 7.3 编程 : 6.1 综合 : 6.7 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 6.5 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#30#30	GPT-5.2 Chatnone	8.0	OpenAI	$0.604	7.65s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 74.2% 不稳定测试 4 输入令牌 101,248 输出令牌 30,424 推理令牌 0 响应时间（平均） 7.65s 响应时间（总计） 168.39s 响应时间（最大） 38.52s 答案错误: 6 未遵循指令: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#102#102	Gemini 3.1 Flash Litelow	6.5	Google	$0.621	16.26s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 59.1% 不稳定测试 2 输入令牌 94,224 输出令牌 7,759 推理令牌 390,126 响应时间（平均） 16.26s 响应时间（总计） 357.64s 响应时间（最大） 318.02s 答案错误: 9 无效工具调用: 1 反AI技巧 : 7.3 编程 : 5.5 综合 : 3.2 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0

←

1 2 3 4 5 6 7

→

快速对比

AI Benchy 排行榜

筛选模型

快速对比