AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-24 已评估模型: 222

222/222

排名	模型	分数	公司	总成本	响应时间（平均）
#34#34	GPT-5.2 Chatnone	8.0	OpenAI	$0.604	7.65s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 74.2% 不稳定测试 4 输入令牌 101,248 输出令牌 30,424 推理令牌 0 响应时间（平均） 7.65s 响应时间（总计） 168.39s 响应时间（最大） 38.52s 答案错误: 6 未遵循指令: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#35#35	GLM 5.2high	8.0	Z.ai	$0.800 ↓	62.65s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 3 输入令牌 83,813 输出令牌 69,688 推理令牌 225,659 响应时间（平均） 62.65s 响应时间（总计） 1378.34s 响应时间（最大） 599.43s 超时: 3 答案错误: 3 未遵循指令: 1 无答案: 1 反AI技巧 : 10.0 编程 : 6.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#38#38	GPT-5.6 Terrahigh	8.0	OpenAI	$1.055	11.32s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 68.2% 不稳定测试 2 输入令牌 81,047 输出令牌 5,055 推理令牌 51,736 响应时间（平均） 11.32s 响应时间（总计） 249.14s 响应时间（最大） 91.49s 答案错误: 7 无效工具调用: 1 反AI技巧 : 8.3 编程 : 7.6 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#39#39	Seed-2.0-Litemedium	7.9	Bytedance Seed	$0.234	48.53s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 74.2% 不稳定测试 4 输入令牌 129,897 输出令牌 12,533 推理令牌 88,047 响应时间（平均） 48.53s 响应时间（总计） 1067.74s 响应时间（最大） 254.92s 答案错误: 5 未遵循指令: 2 无答案: 1 反AI技巧 : 8.3 编程 : 8.0 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 6.7 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0 常识问答 : 3.0
#40#40	Qwen3.7 Plusmedium	7.9	Qwen	$0.267 ↓	51.51s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 75.8% 不稳定测试 3 输入令牌 115,233 输出令牌 6,162 推理令牌 173,267 响应时间（平均） 51.51s 响应时间（总计） 1133.15s 响应时间（最大） 315.30s 答案错误: 5 无效工具调用: 1 超时: 1 反AI技巧 : 10.0 编程 : 6.1 综合 : 8.2 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#41#41	Qwen3.6 Plusmedium	7.8	Qwen	$0.405 ↑	43.12s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 71.2% 不稳定测试 2 输入令牌 97,689 输出令牌 6,412 推理令牌 184,825 响应时间（平均） 43.12s 响应时间（总计） 905.53s 响应时间（最大） 291.55s 答案错误: 5 API 错误: 1 未遵循指令: 1 反AI技巧 : 10.0 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#43#43	GPT-5.6 Terramedium	7.8	OpenAI	$0.676	7.11s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 69.7% 不稳定测试 2 输入令牌 79,175 输出令牌 4,878 推理令牌 26,952 响应时间（平均） 7.11s 响应时间（总计） 156.42s 响应时间（最大） 41.68s 答案错误: 8 反AI技巧 : 8.3 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 10.0 谜题求解 : 8.4 工具调用 : 10.0 常识问答 : 3.0
#44#44	Claude Sonnet 4.6medium	7.8	Anthropic	$2.057	25.91s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 66.7% 不稳定测试 2 输入令牌 106,292 输出令牌 80,748 推理令牌 35,117 响应时间（平均） 25.91s 响应时间（总计） 362.78s 响应时间（最大） 140.96s 答案错误: 4 额外格式: 3 超时: 1 反AI技巧 : 6.5 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#45#45	Claude Opus 4.8low	7.8	Anthropic	$2.077	12.74s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 80.3% 不稳定测试 3 输入令牌 156,525 输出令牌 43,141 推理令牌 8,617 响应时间（平均） 12.74s 响应时间（总计） 280.29s 响应时间（最大） 127.97s 答案错误: 4 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 6.6 综合 : 9.9 数据解析与提取 : 6.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#46#46	GLM 5medium	7.7	Z.ai	$0.307 ↑	33.54s
查看模型卡片总测试数 21 错误测试数 6 可靠性 10.0 尝试通过率 78.8% 不稳定测试 4 输入令牌 35,224 输出令牌 21,570 推理令牌 102,996 响应时间（平均） 33.54s 响应时间（总计） 435.99s 响应时间（最大） 99.85s 答案错误: 3 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 5.0 数据解析与提取 : 7.1 领域专项 : 3.5 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#47#47	Claude Opus 4.6medium	7.7	Anthropic	$3.059	34.27s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 63.6% 不稳定测试 3 输入令牌 108,615 输出令牌 72,286 推理令牌 28,315 响应时间（平均） 34.27s 响应时间（总计） 513.99s 响应时间（最大） 151.51s 额外格式: 5 答案错误: 3 未遵循指令: 1 反AI技巧 : 6.4 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#48#48	GPT-5.6 Lunahigh	7.7	OpenAI	$1.017	18.68s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 72.7% 不稳定测试 3 输入令牌 80,918 输出令牌 5,088 推理令牌 150,910 响应时间（平均） 18.68s 响应时间（总计） 411.05s 响应时间（最大） 111.09s 答案错误: 7 反AI技巧 : 8.3 编程 : 5.5 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 5.0 指令遵循 : 9.9 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#49#49	DeepSeek V4 Flashhigh	7.7	DeepSeek	$0.042 ↓	49.75s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 72.7% 不稳定测试 5 输入令牌 108,392 输出令牌 14,478 推理令牌 153,687 响应时间（平均） 49.75s 响应时间（总计） 1094.41s 响应时间（最大） 218.13s 答案错误: 6 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 8.3 编程 : 7.8 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#50#50	DeepSeek V4 Prohigh	7.7	DeepSeek	$0.200	79.14s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 63.6% 不稳定测试 6 输入令牌 90,748 输出令牌 10,462 推理令牌 178,719 响应时间（平均） 79.14s 响应时间（总计） 1740.97s 响应时间（最大） 416.76s 答案错误: 6 未遵循指令: 2 API 错误: 1 额外格式: 1 无答案: 1 超时: 1 反AI技巧 : 5.7 编程 : 6.3 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 7.8 谜题求解 : 6.9 工具调用 : 9.8 常识问答 : 3.0
#52#52	Grok Build 0.1medium	7.6	X AI	$1.097	52.06s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 63.6% 不稳定测试 0 输入令牌 106,751 输出令牌 7,993 推理令牌 486,670 响应时间（平均） 52.06s 响应时间（总计） 1145.27s 响应时间（最大） 252.69s 答案错误: 5 额外格式: 3 反AI技巧 : 8.3 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#53#53	GLM 5 Turbomedium	7.6	Z.ai	$0.323 ↑	23.00s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 71.2% 不稳定测试 4 输入令牌 35,593 输出令牌 12,245 推理令牌 62,277 响应时间（平均） 23.00s 响应时间（总计） 482.97s 响应时间（最大） 194.23s 答案错误: 4 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 8.2 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.7 工具调用 : 10.0 常识问答 : 3.0
#54#54	GPT-5.6 Lunamedium	7.6	OpenAI	$0.352	7.28s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 65.2% 不稳定测试 1 输入令牌 89,676 输出令牌 5,699 推理令牌 37,980 响应时间（平均） 7.28s 响应时间（总计） 160.27s 响应时间（最大） 29.85s 答案错误: 8 反AI技巧 : 8.3 编程 : 5.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.1 指令遵循 : 9.9 谜题求解 : 7.8 工具调用 : 10.0 常识问答 : 3.0
#56#56	Kimi K2.7 Codemedium	7.5	Moonshot AI	$0.740 ↓	84.25s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 65.2% 不稳定测试 4 输入令牌 72,073 输出令牌 83,714 推理令牌 178,793 响应时间（平均） 84.25s 响应时间（总计） 1769.22s 响应时间（最大） 365.80s 答案错误: 5 超时: 3 API 错误: 1 未遵循指令: 1 反AI技巧 : 7.3 编程 : 7.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.5 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 5.9 工具调用 : 3.0 常识问答 : 3.0
#57#57	GPT-5.4 Nanomedium	7.5	OpenAI	$0.138	13.24s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 65.2% 不稳定测试 4 输入令牌 82,819 输出令牌 7,100 推理令牌 90,022 响应时间（平均） 13.24s 响应时间（总计） 291.33s 响应时间（最大） 94.06s 答案错误: 8 未遵循指令: 2 反AI技巧 : 8.3 编程 : 6.1 综合 : 9.9 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.5 指令遵循 : 9.8 谜题求解 : 4.1 工具调用 : 10.0 常识问答 : 3.0
#58#58	GPT-5.3 Chatnone	7.5	OpenAI	$0.571	6.88s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 68.2% 不稳定测试 5 输入令牌 78,990 输出令牌 30,854 推理令牌 0 响应时间（平均） 6.88s 响应时间（总计） 151.31s 响应时间（最大） 18.33s 答案错误: 7 未遵循指令: 2 反AI技巧 : 6.7 编程 : 5.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.6 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#59#59	GPT-5.6 Terralow	7.5	OpenAI	$0.519	5.31s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 74.2% 不稳定测试 6 输入令牌 80,295 输出令牌 4,714 推理令牌 16,469 响应时间（平均） 5.31s 响应时间（总计） 116.82s 响应时间（最大） 19.85s 答案错误: 8 无效工具调用: 1 反AI技巧 : 8.3 编程 : 6.6 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 4.7 常识问答 : 3.0
#60#60	GPT-5.4 Minimedium	7.5	OpenAI	$0.756	25.94s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 71.2% 不稳定测试 6 输入令牌 97,155 输出令牌 6,211 推理令牌 145,544 响应时间（平均） 25.94s 响应时间（总计） 570.66s 响应时间（最大） 138.75s 答案错误: 6 未遵循指令: 3 无效工具调用: 1 反AI技巧 : 8.6 编程 : 8.4 综合 : 6.9 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 4.5 指令遵循 : 9.8 谜题求解 : 7.8 工具调用 : 4.7 常识问答 : 3.0
#61#61	Qwen3.5 Plus 2026-02-15medium	7.5	Qwen	$0.437 ↓	89.19s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 4 输入令牌 113,560 输出令牌 9,823 推理令牌 250,881 响应时间（平均） 89.19s 响应时间（总计） 1337.92s 响应时间（最大） 304.85s 答案错误: 4 超时: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 8.2 编程 : 6.6 综合 : 6.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#62#62	Qwen3.5-27Bmedium	7.4	Qwen	$0.981 ↓	111.94s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 72.7% 不稳定测试 5 输入令牌 111,635 输出令牌 15,999 推理令牌 598,430 响应时间（平均） 111.94s 响应时间（总计） 2462.67s 响应时间（最大） 1026.43s 答案错误: 4 未遵循指令: 2 额外格式: 1 无效工具调用: 1 超时: 1 反AI技巧 : 8.7 编程 : 6.2 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#65#65	Gemini 3 Flash Previewlow	7.4	Google	$0.177	6.28s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 75.8% 不稳定测试 2 输入令牌 123,684 输出令牌 9,572 推理令牌 28,518 响应时间（平均） 6.28s 响应时间（总计） 138.06s 响应时间（最大） 17.13s 答案错误: 6 反AI技巧 : 10.0 编程 : 5.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#66#66	KAT-Coder-Pro V2.5low	7.4	Kwaipilot	$0.387	19.47s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 69.7% 不稳定测试 8 输入令牌 87,673 输出令牌 7,166 推理令牌 101,474 响应时间（平均） 19.47s 响应时间（总计） 428.31s 响应时间（最大） 209.15s 答案错误: 10 API 错误: 1 反AI技巧 : 6.9 编程 : 7.8 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 4.1 指令遵循 : 10.0 谜题求解 : 6.4 工具调用 : 10.0 常识问答 : 3.0
#67#67	Claude Sonnet 4.6none	7.3	Anthropic	$0.661	8.12s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 57.6% 不稳定测试 1 输入令牌 123,264 输出令牌 19,362 推理令牌 0 响应时间（平均） 8.12s 响应时间（总计） 121.78s 响应时间（最大） 51.18s 答案错误: 5 额外格式: 4 未遵循指令: 1 反AI技巧 : 4.8 编程 : 5.5 综合 : 9.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 6.1 指令遵循 : 6.5 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#68#68	Gemini 3.1 Flash Lite Previewmedium	7.3	Google	$0.115	4.61s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 59.1% 不稳定测试 0 输入令牌 117,480 输出令牌 10,589 推理令牌 46,394 响应时间（平均） 4.61s 响应时间（总计） 101.39s 响应时间（最大） 18.34s 答案错误: 7 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 9.1 编程 : 5.5 综合 : 7.2 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#69#69	Gemini 3.1 Flash Litemedium	7.3	Google	$0.117	4.27s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 62.1% 不稳定测试 2 输入令牌 104,918 输出令牌 9,168 推理令牌 51,130 响应时间（平均） 4.27s 响应时间（总计） 94.02s 响应时间（最大） 26.22s 答案错误: 7 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 9.1 编程 : 5.5 综合 : 7.2 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#70#70	Claude Opus 4.8none	7.3	Anthropic	$1.166	4.91s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 63.6% 不稳定测试 2 输入令牌 149,206 输出令牌 16,797 推理令牌 0 响应时间（平均） 4.91s 响应时间（总计） 108.03s 响应时间（最大） 35.03s 答案错误: 4 额外格式: 3 未遵循指令: 1 无答案: 1 反AI技巧 : 6.5 编程 : 5.5 综合 : 9.8 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0

←

1 2 3 8

→

快速对比

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

AI Benchy 排行榜

筛选模型

快速对比