AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-18 已评估模型: 206

206/206

排名	模型	分数	公司	总成本	响应时间（平均）
#25#25	Gemini 2.5 Flashmedium	8.2	Google	$0.643	21.18s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 71.2% 不稳定测试 1 输入令牌 132,498 输出令牌 12,739 推理令牌 228,464 响应时间（平均） 21.18s 响应时间（总计） 465.89s 响应时间（最大） 140.50s 答案错误: 6 未遵循指令: 1 反AI技巧 : 8.4 编程 : 7.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.8 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#28#28	Inklinghigh	8.0	Thinkingmachines	$1.006	64.16s
查看模型卡片总测试数 22 错误测试数 7 可靠性 9.8 尝试通过率 77.3% 不稳定测试 3 输入令牌 86,746 输出令牌 6,055 推理令牌 220,791 响应时间（平均） 64.16s 响应时间（总计） 1411.59s 响应时间（最大） 327.51s 答案错误: 4 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 10.0 编程 : 8.5 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 6.9 工具调用 : 3.0 常识问答 : 3.0
#32#32	Inklingmedium	8.0	Thinkingmachines	$0.391	16.21s
查看模型卡片总测试数 22 错误测试数 7 可靠性 9.8 尝试通过率 78.8% 不稳定测试 5 输入令牌 124,053 输出令牌 12,189 推理令牌 53,597 响应时间（平均） 16.21s 响应时间（总计） 356.54s 响应时间（最大） 85.12s 答案错误: 4 API 错误: 1 无效工具调用: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.4 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 2.8
#36#36	Qwen3.7 Plusmedium	7.9	Qwen	$0.267 ↓	51.51s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 75.8% 不稳定测试 3 输入令牌 115,233 输出令牌 6,162 推理令牌 173,267 响应时间（平均） 51.51s 响应时间（总计） 1133.15s 响应时间（最大） 315.30s 答案错误: 5 无效工具调用: 1 超时: 1 反AI技巧 : 10.0 编程 : 6.1 综合 : 8.2 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#37#37	Qwen3.6 Plusmedium	7.8	Qwen	$0.405 ↑	43.12s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 71.2% 不稳定测试 2 输入令牌 97,689 输出令牌 6,412 推理令牌 184,825 响应时间（平均） 43.12s 响应时间（总计） 905.53s 响应时间（最大） 291.55s 答案错误: 5 API 错误: 1 未遵循指令: 1 反AI技巧 : 10.0 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#44#44	GPT-5.6 Lunahigh	7.7	OpenAI	$1.017	18.68s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 72.7% 不稳定测试 3 输入令牌 80,918 输出令牌 5,088 推理令牌 150,910 响应时间（平均） 18.68s 响应时间（总计） 411.05s 响应时间（最大） 111.09s 答案错误: 7 反AI技巧 : 8.3 编程 : 5.5 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 5.0 指令遵循 : 9.9 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#59#59	Qwen3.7 Maxnone	7.4	Qwen	$0.197 ↓	4.52s
查看模型卡片总测试数 22 错误测试数 7 可靠性 9.9 尝试通过率 68.2% 不稳定测试 0 输入令牌 95,983 输出令牌 12,446 推理令牌 0 响应时间（平均） 4.52s 响应时间（总计） 99.52s 响应时间（最大） 72.30s 答案错误: 7 反AI技巧 : 6.5 编程 : 5.5 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#78#78	Gemini 3.5 Flashnone	7.0	Google	$1.079	9.93s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 74.2% 不稳定测试 3 输入令牌 13,843 输出令牌 117,518 推理令牌 0 响应时间（平均） 9.93s 响应时间（总计） 178.68s 响应时间（最大） 64.36s API 错误: 4 答案错误: 3 反AI技巧 : 10.0 编程 : 8.8 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 7.6 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 2.8
#49#49	GLM 5 Turbomedium	7.6	Z.ai	$0.323 ↑	23.00s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 71.2% 不稳定测试 4 输入令牌 35,593 输出令牌 12,245 推理令牌 62,277 响应时间（平均） 23.00s 响应时间（总计） 482.97s 响应时间（最大） 194.23s 答案错误: 4 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 8.2 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.7 工具调用 : 10.0 常识问答 : 3.0
#97#97	Hy3 previewmedium	6.5	Tencent	$0.018 ↕	16.28s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 63.6% 不稳定测试 0 输入令牌 27,030 输出令牌 73,544 推理令牌 0 响应时间（平均） 16.28s 响应时间（总计） 293.12s 响应时间（最大） 46.04s API 错误: 3 答案错误: 3 未遵循指令: 1 反AI技巧 : 10.0 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#129#129	Gemini 3 PRO Previewmedium	6.0	Google	$0.385 ↑	9.05s
查看模型卡片总测试数 21 错误测试数 7 可靠性不适用尝试通过率 63.6% 不稳定测试 0 输入令牌 28,848 输出令牌 1,490 推理令牌 10,102 响应时间（平均） 9.05s 响应时间（总计） 90.53s 响应时间（最大） 26.24s API 错误: 4 答案错误: 3 反AI技巧 : 10.0 编程 : 3.0 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#21#21	GPT-5.2medium	8.4	OpenAI	$0.951	22.62s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 72.7% 不稳定测试 4 输入令牌 105,004 输出令牌 9,914 推理令牌 44,868 响应时间（平均） 22.62s 响应时间（总计） 339.28s 响应时间（最大） 102.93s 未遵循指令: 3 答案错误: 3 无答案: 1 超时: 1 反AI技巧 : 6.5 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 3.7 指令遵循 : 9.9 谜题求解 : 7.5 工具调用 : 4.7 常识问答 : 3.0
#29#29	Step 3.7 Flashmedium	8.0	Stepfun	$0.515	26.37s
查看模型卡片总测试数 22 错误测试数 8 可靠性 9.9 尝试通过率 72.7% 不稳定测试 3 输入令牌 114,062 输出令牌 427,572 推理令牌 0 响应时间（平均） 26.37s 响应时间（总计） 580.25s 响应时间（最大） 152.83s 答案错误: 5 未遵循指令: 1 无效工具调用: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 4.0 指令遵循 : 9.8 谜题求解 : 5.7 工具调用 : 10.0 常识问答 : 3.0
#30#30	GPT-5.2 Chatnone	8.0	OpenAI	$0.604	7.65s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 74.2% 不稳定测试 4 输入令牌 101,248 输出令牌 30,424 推理令牌 0 响应时间（平均） 7.65s 响应时间（总计） 168.39s 响应时间（最大） 38.52s 答案错误: 6 未遵循指令: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.8 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#31#31	GLM 5.2high	8.0	Z.ai	$0.296 ↓	62.65s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 3 输入令牌 83,813 输出令牌 69,688 推理令牌 225,659 响应时间（平均） 62.65s 响应时间（总计） 1378.34s 响应时间（最大） 599.43s 超时: 3 答案错误: 3 未遵循指令: 1 无答案: 1 反AI技巧 : 10.0 编程 : 6.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#34#34	GPT-5.6 Terrahigh	8.0	OpenAI	$1.055	11.32s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 68.2% 不稳定测试 2 输入令牌 81,047 输出令牌 5,055 推理令牌 51,736 响应时间（平均） 11.32s 响应时间（总计） 249.14s 响应时间（最大） 91.49s 答案错误: 7 无效工具调用: 1 反AI技巧 : 8.3 编程 : 7.6 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#35#35	Seed-2.0-Litemedium	7.9	Bytedance Seed	$0.234	48.53s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 74.2% 不稳定测试 4 输入令牌 129,897 输出令牌 12,533 推理令牌 88,047 响应时间（平均） 48.53s 响应时间（总计） 1067.74s 响应时间（最大） 254.92s 答案错误: 5 未遵循指令: 2 无答案: 1 反AI技巧 : 8.3 编程 : 8.0 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 6.7 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0 常识问答 : 3.0
#39#39	GPT-5.6 Terramedium	7.8	OpenAI	$0.676	7.11s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 69.7% 不稳定测试 2 输入令牌 79,175 输出令牌 4,878 推理令牌 26,952 响应时间（平均） 7.11s 响应时间（总计） 156.42s 响应时间（最大） 41.68s 答案错误: 8 反AI技巧 : 8.3 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 10.0 谜题求解 : 8.4 工具调用 : 10.0 常识问答 : 3.0
#40#40	Claude Sonnet 4.6medium	7.8	Anthropic	$2.057	25.91s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 66.7% 不稳定测试 2 输入令牌 106,292 输出令牌 80,748 推理令牌 35,117 响应时间（平均） 25.91s 响应时间（总计） 362.78s 响应时间（最大） 140.96s 答案错误: 4 额外格式: 3 超时: 1 反AI技巧 : 6.5 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#48#48	Grok Build 0.1medium	7.6	X AI	$1.097	52.06s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 63.6% 不稳定测试 0 输入令牌 106,751 输出令牌 7,993 推理令牌 486,670 响应时间（平均） 52.06s 响应时间（总计） 1145.27s 响应时间（最大） 252.69s 答案错误: 5 额外格式: 3 反AI技巧 : 8.3 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#50#50	GPT-5.6 Lunamedium	7.6	OpenAI	$0.352	7.28s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 65.2% 不稳定测试 1 输入令牌 89,676 输出令牌 5,699 推理令牌 37,980 响应时间（平均） 7.28s 响应时间（总计） 160.27s 响应时间（最大） 29.85s 答案错误: 8 反AI技巧 : 8.3 编程 : 5.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.1 指令遵循 : 9.9 谜题求解 : 7.8 工具调用 : 10.0 常识问答 : 3.0
#57#57	Qwen3.5 Plus 2026-02-15medium	7.5	Qwen	$0.437 ↓	89.19s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 4 输入令牌 113,560 输出令牌 9,823 推理令牌 250,881 响应时间（平均） 89.19s 响应时间（总计） 1337.92s 响应时间（最大） 304.85s 答案错误: 4 超时: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 8.2 编程 : 6.6 综合 : 6.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#71#71	Qwen3.5-122B-A10Bmedium	7.1	Qwen	$1.046 ↓	64.16s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 4 输入令牌 124,771 输出令牌 44,077 推理令牌 443,141 响应时间（平均） 64.16s 响应时间（总计） 1411.60s 响应时间（最大） 519.30s 答案错误: 5 超时: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 6.0 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.4 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#87#87	Gemini 3.5 Flashminimal	6.8	Google	$0.300	2.65s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 65.2% 不稳定测试 1 输入令牌 100,753 输出令牌 16,454 推理令牌 0 响应时间（平均） 2.65s 响应时间（总计） 58.27s 响应时间（最大） 25.26s 答案错误: 5 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 6.5 编程 : 5.6 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 10.0 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#93#93	Gemma 4 26B A4Bmedium	6.6	Google	$0.082 ↓	103.83s
查看模型卡片总测试数 22 错误测试数 8 可靠性 9.4 尝试通过率 66.7% 不稳定测试 2 输入令牌 77,550 输出令牌 28,036 推理令牌 219,491 响应时间（平均） 103.83s 响应时间（总计） 2180.47s 响应时间（最大） 912.19s 答案错误: 3 无答案: 2 超时: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 2.9 综合 : 6.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#107#107	Gemma 4 31Bmedium	6.3	Google	$0.107 ↓	75.38s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 68.2% 不稳定测试 2 输入令牌 94,992 输出令牌 34,468 推理令牌 223,278 响应时间（平均） 75.38s 响应时间（总计） 1507.52s 响应时间（最大） 437.40s API 错误: 2 超时: 2 答案错误: 2 无效工具调用: 1 无答案: 1 反AI技巧 : 10.0 编程 : 4.3 综合 : 2.9 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 9.9 工具调用 : 3.0 常识问答 : 3.0
#24#24	Muse Spark 1.1low	8.3	Meta	$0.647	11.45s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 69.7% 不稳定测试 4 输入令牌 142,298 输出令牌 10,847 推理令牌 99,467 响应时间（平均） 11.45s 响应时间（总计） 251.92s 响应时间（最大） 54.15s 答案错误: 6 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 7.9 编程 : 10.0 综合 : 6.6 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 7.3 谜题求解 : 8.3 工具调用 : 9.8 常识问答 : 3.0
#43#43	Claude Opus 4.6medium	7.7	Anthropic	$3.059	34.27s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 63.6% 不稳定测试 3 输入令牌 108,615 输出令牌 72,286 推理令牌 28,315 响应时间（平均） 34.27s 响应时间（总计） 513.99s 响应时间（最大） 151.51s 额外格式: 5 答案错误: 3 未遵循指令: 1 反AI技巧 : 6.4 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#45#45	DeepSeek V4 Flashhigh	7.7	DeepSeek	$0.042 ↓	49.75s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 72.7% 不稳定测试 5 输入令牌 108,392 输出令牌 14,478 推理令牌 153,687 响应时间（平均） 49.75s 响应时间（总计） 1094.41s 响应时间（最大） 218.13s 答案错误: 6 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 8.3 编程 : 7.8 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#51#51	Nemotron 3 Ultramedium	7.5	NVIDIA	$0.774 ↕	32.21s
查看模型卡片总测试数 22 错误测试数 9 可靠性 9.8 尝试通过率 68.2% 不稳定测试 4 输入令牌 233,488 输出令牌 57,916 推理令牌 128,062 响应时间（平均） 32.21s 响应时间（总计） 708.65s 响应时间（最大） 392.56s 答案错误: 7 API 错误: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 8.4 综合 : 6.3 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 3.7 指令遵循 : 9.8 谜题求解 : 5.5 工具调用 : 10.0 常识问答 : 3.0

←

1 2 3 4 5 6 7

→

快速对比

AI Benchy 排行榜

筛选模型

快速对比