AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-20 已评估模型: 210

210/210

排名	模型	分数	公司	总成本	响应时间（平均）
#169#169	Qwen3.5-9Bnone	5.1	Qwen	$0.021 ↑	19.17s
查看模型卡片总测试数 22 错误测试数 18 可靠性 10.0 尝试通过率 19.7% 不稳定测试 1 输入令牌 144,407 输出令牌 37,484 推理令牌 0 响应时间（平均） 19.17s 响应时间（总计） 421.74s 响应时间（最大） 382.06s 答案错误: 14 未遵循指令: 2 无效工具调用: 2 反AI技巧 : 3.1 编程 : 3.9 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 3.2 工具调用 : 10.0 常识问答 : 3.0
#155#155	Kimi K2.5none	5.5	Moonshot AI	$0.127 ↑	19.15s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 34.9% 不稳定测试 4 输入令牌 89,322 输出令牌 26,638 推理令牌 0 响应时间（平均） 19.15s 响应时间（总计） 287.30s 响应时间（最大） 102.83s 答案错误: 15 无答案: 1 反AI技巧 : 3.6 编程 : 5.5 综合 : 2.8 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.5 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#44#44	GPT-5.6 Lunahigh	7.7	OpenAI	$1.017	18.68s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 72.7% 不稳定测试 3 输入令牌 80,918 输出令牌 5,088 推理令牌 150,910 响应时间（平均） 18.68s 响应时间（总计） 411.05s 响应时间（最大） 111.09s 答案错误: 7 反AI技巧 : 8.3 编程 : 5.5 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 5.0 指令遵循 : 9.9 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#173#173	DeepSeek V3.2none	5.0	DeepSeek	$0.054 ↑	18.25s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 37.9% 不稳定测试 6 输入令牌 135,780 输出令牌 42,097 推理令牌 0 响应时间（平均） 18.25s 响应时间（总计） 401.60s 响应时间（最大） 115.89s 答案错误: 7 API 错误: 4 额外格式: 2 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 3.2 编程 : 3.1 综合 : 4.8 数据解析与提取 : 6.3 领域专项 : 2.9 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#17#17	Claude Fable 5medium	8.6	Anthropic	$3.478	17.20s
查看模型卡片总测试数 22 错误测试数 5 可靠性 10.0 尝试通过率 78.8% 不稳定测试 1 输入令牌 89,643 输出令牌 41,360 推理令牌 10,269 响应时间（平均） 17.20s 响应时间（总计） 378.41s 响应时间（最大） 80.80s 无答案: 2 答案错误: 2 无效工具调用: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#207#207	Nemotron 3 Nano Omni 30b A3b Reasoningmedium	3.4	NVIDIA	$0.000	17.13s
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 27.3% 不稳定测试 5 输入令牌 11,661 输出令牌 48,491 推理令牌 180,695 响应时间（平均） 17.13s 响应时间（总计） 222.66s 响应时间（最大） 147.45s 答案错误: 7 API 错误: 6 未遵循指令: 1 无答案: 1 反AI技巧 : 6.4 编程 : 1.1 综合 : 1.5 数据解析与提取 : 7.3 领域专项 : 2.9 通用智能 : 3.0 指令遵循 : 7.3 谜题求解 : 2.9 工具调用 : 3.0 常识问答 : 3.0
#13#13	GPT-5.3-Codexmedium	8.9	OpenAI	$0.920	16.96s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 83.3% 不稳定测试 4 输入令牌 81,268 输出令牌 6,251 推理令牌 49,274 响应时间（平均） 16.96s 响应时间（总计） 373.19s 响应时间（最大） 100.93s 答案错误: 4 未遵循指令: 2 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.6 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0 常识问答 : 2.8
#104#104	Gemini 3.1 Flash Lite Previewlow	6.5	Google	$0.646	16.70s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 59.1% 不稳定测试 0 输入令牌 110,185 输出令牌 14,717 推理令牌 397,483 响应时间（平均） 16.70s 响应时间（总计） 367.47s 响应时间（最大） 309.35s 答案错误: 7 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 8.3 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#100#100	Hy3 previewmedium	6.5	Tencent	$0.018 ↕	16.28s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 63.6% 不稳定测试 0 输入令牌 27,030 输出令牌 73,544 推理令牌 0 响应时间（平均） 16.28s 响应时间（总计） 293.12s 响应时间（最大） 46.04s API 错误: 3 答案错误: 3 未遵循指令: 1 反AI技巧 : 10.0 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#105#105	Gemini 3.1 Flash Litelow	6.5	Google	$0.621	16.26s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 59.1% 不稳定测试 2 输入令牌 94,224 输出令牌 7,759 推理令牌 390,126 响应时间（平均） 16.26s 响应时间（总计） 357.64s 响应时间（最大） 318.02s 答案错误: 9 无效工具调用: 1 反AI技巧 : 7.3 编程 : 5.5 综合 : 3.2 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#32#32	Inklingmedium	8.0	Thinkingmachines	$0.391	16.21s
查看模型卡片总测试数 22 错误测试数 7 可靠性 9.8 尝试通过率 78.8% 不稳定测试 5 输入令牌 124,053 输出令牌 12,189 推理令牌 53,597 响应时间（平均） 16.21s 响应时间（总计） 356.54s 响应时间（最大） 85.12s 答案错误: 4 API 错误: 1 无效工具调用: 1 无答案: 1 反AI技巧 : 8.7 编程 : 8.4 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 2.8
#144#144	KAT-Coder-Air V2.5high	5.6	Kwaipilot	$0.077	15.90s
查看模型卡片总测试数 22 错误测试数 15 可靠性 9.9 尝试通过率 43.9% 不稳定测试 6 输入令牌 50,470 输出令牌 3,957 推理令牌 111,374 响应时间（平均） 15.90s 响应时间（总计） 349.71s 响应时间（最大） 118.35s 答案错误: 9 API 错误: 3 额外格式: 3 反AI技巧 : 6.9 编程 : 4.3 综合 : 6.5 数据解析与提取 : 6.5 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 9.8 谜题求解 : 3.5 工具调用 : 10.0 常识问答 : 3.0
#20#20	Grok 4.5low	8.4	X AI	$0.935	15.56s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 75.8% 不稳定测试 1 输入令牌 125,596 输出令牌 7,505 推理令牌 106,446 响应时间（平均） 15.56s 响应时间（总计） 342.32s 响应时间（最大） 205.28s 答案错误: 6 反AI技巧 : 10.0 编程 : 10.0 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 6.1 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#175#175	Qwen3.6 Plus Previewmedium	4.9	Qwen	$0.000	15.25s
查看模型卡片总测试数 19 错误测试数 10 可靠性不适用尝试通过率 40.9% 不稳定测试 0 输入令牌 32,639 输出令牌 1,153 推理令牌 62,197 响应时间（平均） 15.25s 响应时间（总计） 182.96s 响应时间（最大） 43.55s API 错误: 8 答案错误: 2 反AI技巧 : 8.3 编程 : 9.8 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 3.0 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#2🥈 #2	Gemini 3.5 Flashhigh	9.5	Google	$1.976	15.07s
查看模型卡片总测试数 22 错误测试数 2 可靠性 10.0 尝试通过率 93.9% 不稳定测试 2 输入令牌 107,137 输出令牌 8,777 推理令牌 192,900 响应时间（平均） 15.07s 响应时间（总计） 331.48s 响应时间（最大） 145.92s 无效工具调用: 1 答案错误: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 8.2 数据解析与提取 : 10.0 领域专项 : 7.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 9.8 常识问答 : 10.0
#186#186	Laguna M.1medium	4.7	Poolside	$0.033 ↕	14.73s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 45.5% 不稳定测试 2 输入令牌 44,969 输出令牌 58,087 推理令牌 0 响应时间（平均） 14.73s 响应时间（总计） 220.93s 响应时间（最大） 53.14s API 错误: 4 答案错误: 4 未遵循指令: 1 无答案: 1 反AI技巧 : 6.5 编程 : 1.5 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#126#126	Qwen3.5 Plus 2026-04-20none	6.1	Qwen	$0.122 ↓	13.56s
查看模型卡片总测试数 22 错误测试数 14 可靠性 10.0 尝试通过率 43.9% 不稳定测试 4 输入令牌 94,468 输出令牌 51,487 推理令牌 0 响应时间（平均） 13.56s 响应时间（总计） 298.31s 响应时间（最大） 206.05s 答案错误: 12 未遵循指令: 2 反AI技巧 : 4.8 编程 : 3.9 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 6.2 谜题求解 : 6.7 工具调用 : 10.0 常识问答 : 3.0
#53#53	GPT-5.4 Nanomedium	7.5	OpenAI	$0.138	13.24s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 65.2% 不稳定测试 4 输入令牌 82,819 输出令牌 7,100 推理令牌 90,022 响应时间（平均） 13.24s 响应时间（总计） 291.33s 响应时间（最大） 94.06s 答案错误: 8 未遵循指令: 2 反AI技巧 : 8.3 编程 : 6.1 综合 : 9.9 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.5 指令遵循 : 9.8 谜题求解 : 4.1 工具调用 : 10.0 常识问答 : 3.0
#199#199	Hy3 previewnone	4.0	Tencent	$0.003 ↕	12.92s
查看模型卡片总测试数 21 错误测试数 17 可靠性 10.0 尝试通过率 22.7% 不稳定测试 2 输入令牌 27,172 输出令牌 2,661 推理令牌 0 响应时间（平均） 12.92s 响应时间（总计） 232.64s 响应时间（最大） 35.84s 答案错误: 8 API 错误: 4 未遵循指令: 4 额外格式: 1 反AI技巧 : 4.8 编程 : 2.7 综合 : 1.5 数据解析与提取 : 6.5 领域专项 : 3.6 通用智能 : 4.1 指令遵循 : 6.3 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#142#142	Qwen3.5-122B-A10Bnone	5.7	Qwen	$0.247 ↓	12.92s
查看模型卡片总测试数 22 错误测试数 16 可靠性 10.0 尝试通过率 33.3% 不稳定测试 2 输入令牌 241,566 输出令牌 88,458 推理令牌 0 响应时间（平均） 12.92s 响应时间（总计） 284.21s 响应时间（最大） 212.63s 答案错误: 13 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 4.8 编程 : 3.7 综合 : 5.2 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.0 指令遵循 : 6.3 谜题求解 : 3.8 工具调用 : 10.0 常识问答 : 3.0
#41#41	Claude Opus 4.8low	7.8	Anthropic	$2.077	12.74s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 80.3% 不稳定测试 3 输入令牌 156,525 输出令牌 43,141 推理令牌 8,617 响应时间（平均） 12.74s 响应时间（总计） 280.29s 响应时间（最大） 127.97s 答案错误: 4 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 6.6 综合 : 9.9 数据解析与提取 : 6.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#127#127	Qwen3.5-35B-A3Bnone	6.1	Qwen	$0.106 ↓	12.72s
查看模型卡片总测试数 22 错误测试数 15 可靠性 10.0 尝试通过率 43.9% 不稳定测试 4 输入令牌 134,521 输出令牌 86,614 推理令牌 0 响应时间（平均） 12.72s 响应时间（总计） 279.90s 响应时间（最大） 209.15s 答案错误: 12 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 3.4 编程 : 5.5 综合 : 3.8 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 6.5 指令遵循 : 6.3 谜题求解 : 3.7 工具调用 : 10.0 常识问答 : 3.0
#23#23	Claude Sonnet 5medium	8.3	Anthropic	$0.922	12.52s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 80.3% 不稳定测试 3 输入令牌 145,956 输出令牌 52,333 推理令牌 10,874 响应时间（平均） 12.52s 响应时间（总计） 275.42s 响应时间（最大） 66.71s 答案错误: 4 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 9.0 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 4.8 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#14#14	Claude Opus 4.8medium	8.8	Anthropic	$1.931	12.49s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 84.9% 不稳定测试 1 输入令牌 138,451 输出令牌 40,766 推理令牌 9,075 响应时间（平均） 12.49s 响应时间（总计） 274.72s 响应时间（最大） 70.54s 答案错误: 3 无答案: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 9.9 数据解析与提取 : 7.1 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#182#182	KAT-Coder-Air V2.5none	4.8	Kwaipilot	$0.067	12.17s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 37.9% 不稳定测试 8 输入令牌 69,367 输出令牌 93,913 推理令牌 0 响应时间（平均） 12.17s 响应时间（总计） 267.83s 响应时间（最大） 121.05s 答案错误: 13 额外格式: 3 API 错误: 1 反AI技巧 : 5.3 编程 : 3.3 综合 : 3.8 数据解析与提取 : 6.3 领域专项 : 2.9 通用智能 : 5.0 指令遵循 : 9.9 谜题求解 : 2.9 工具调用 : 10.0 常识问答 : 3.0
#71#71	Qwen3.7 Plusnone	7.2	Qwen	$0.106 ↓	12.09s
查看模型卡片总测试数 22 错误测试数 11 可靠性 10.0 尝试通过率 50.0% 不稳定测试 0 输入令牌 98,824 输出令牌 58,097 推理令牌 0 响应时间（平均） 12.09s 响应时间（总计） 265.89s 响应时间（最大） 206.03s 答案错误: 10 未遵循指令: 1 反AI技巧 : 6.5 编程 : 5.5 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.3 指令遵循 : 6.3 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#146#146	Owl Alphamedium	5.6	Openrouter	$0.000	11.95s
查看模型卡片总测试数 21 错误测试数 13 可靠性 10.0 尝试通过率 37.9% 不稳定测试 1 输入令牌 43,478 输出令牌 2,974 推理令牌 0 响应时间（平均） 11.95s 响应时间（总计） 250.88s 响应时间（最大） 58.63s 答案错误: 10 未遵循指令: 2 API 错误: 1 反AI技巧 : 4.8 编程 : 5.4 综合 : 1.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#5#5	GPT-5.6 Solhigh	9.4	OpenAI	$1.234	11.73s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 89.4% 不稳定测试 3 输入令牌 79,249 输出令牌 4,855 推理令牌 23,044 响应时间（平均） 11.73s 响应时间（总计） 257.99s 响应时间（最大） 54.79s 答案错误: 4 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 4.7
#82#82	DeepSeek V4 Pronone	6.9	DeepSeek	$0.096	11.55s
查看模型卡片总测试数 22 错误测试数 12 可靠性 10.0 尝试通过率 51.5% 不稳定测试 4 输入令牌 148,069 输出令牌 35,551 推理令牌 0 响应时间（平均） 11.55s 响应时间（总计） 254.11s 响应时间（最大） 119.44s 答案错误: 8 未遵循指令: 2 额外格式: 1 无效工具调用: 1 反AI技巧 : 3.2 编程 : 5.6 综合 : 7.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.0 指令遵循 : 6.3 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#24#24	Muse Spark 1.1low	8.3	Meta	$0.647	11.45s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 69.7% 不稳定测试 4 输入令牌 142,298 输出令牌 10,847 推理令牌 99,467 响应时间（平均） 11.45s 响应时间（总计） 251.92s 响应时间（最大） 54.15s 答案错误: 6 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 7.9 编程 : 10.0 综合 : 6.6 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 7.3 谜题求解 : 8.3 工具调用 : 9.8 常识问答 : 3.0

←

1 2 3 4 5 6 7

→

快速对比

AI Benchy 排行榜

筛选模型

快速对比