AI BENCHY

AI 基准排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-05-10 已评估模型: 144

144/144

排名	模型	分数	公司	总成本	响应时间（平均）
#144#144	Granite 4.1 8Bnone	4.1	IBM Granite	$0.003	743ms
查看模型卡片总测试数 19 错误测试数 17 可靠性 10.0 尝试通过率 10.5% 不稳定测试 0 输出令牌 2,724 推理令牌 0 响应时间（平均） 743ms 响应时间（总计） 14.11s 响应时间（最大） 2.17s 答案错误: 12 未遵循指令: 4 无效工具调用: 1 反AI技巧 : 4.9 编程 : 6.9 综合 : 3.0 数据解析与提取 : 3.0 领域专项 : 3.0 通用智能 : 4.0 指令遵循 : 3.6 谜题求解 : 3.2 工具调用 : 10.0 常识问答 : 3.0
#143#143	LFM2-24B-A2Bnone	4.2	Liquid	$0.001	811ms
查看模型卡片总测试数 16 错误测试数 14 可靠性不适用尝试通过率 18.8% 不稳定测试 2 输出令牌 1,185 推理令牌 0 响应时间（平均） 811ms 响应时间（总计） 11.35s 响应时间（最大） 2.88s 答案错误: 8 API 错误: 4 未遵循指令: 2 反AI技巧 : 3.3 综合 : 3.0 数据解析与提取 : 3.0 领域专项 : 5.9 通用智能 : 4.0 指令遵循 : 6.3 谜题求解 : 3.7 工具调用 : 3.0
#142#142	Qwen3.5-9Bmedium	4.3	Qwen	$0.035	80.10s
查看模型卡片总测试数 19 错误测试数 16 可靠性 3.3 尝试通过率 33.3% 不稳定测试 7 输出令牌 27,365 推理令牌 202,291 响应时间（平均） 80.10s 响应时间（总计） 1281.62s 响应时间（最大） 226.38s 超时: 10 答案错误: 3 额外格式: 1 未遵循指令: 1 无答案: 1 反AI技巧 : 5.1 编程 : 2.6 综合 : 3.0 数据解析与提取 : 3.6 领域专项 : 3.6 通用智能 : 2.8 指令遵循 : 6.4 谜题求解 : 2.9 工具调用 : 10.0 常识问答 : 3.0
#141#141	Grok 4.1 Fastnone	4.4	X AI	$0.009	1.67s
查看模型卡片总测试数 19 错误测试数 16 可靠性 10.0 尝试通过率 22.8% 不稳定测试 3 输出令牌 1,733 推理令牌 0 响应时间（平均） 1.67s 响应时间（总计） 20.08s 响应时间（最大） 5.51s 答案错误: 13 未遵循指令: 3 反AI技巧 : 3.2 编程 : 5.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.4 指令遵循 : 3.0 谜题求解 : 3.0 工具调用 : 2.8 常识问答 : 3.0
#140#140	Ling-2.6-1Tnone	4.5	Inclusionai	$0.000	8.79s
查看模型卡片总测试数 19 错误测试数 15 可靠性不适用尝试通过率 16.7% 不稳定测试 0 输出令牌 2,434 推理令牌 0 响应时间（平均） 8.79s 响应时间（总计） 158.19s 响应时间（最大） 25.72s 答案错误: 12 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 3.4 编程 : 5.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 6.4 谜题求解 : 3.1 工具调用 : 3.0 常识问答 : 0.0
#139#139	MiMo-V2-Flashnone	4.5	Xiaomi	$0.023	2.73s
查看模型卡片总测试数 19 错误测试数 16 可靠性 10.0 尝试通过率 26.3% 不稳定测试 5 输出令牌 68,534 推理令牌 0 响应时间（平均） 2.73s 响应时间（总计） 40.90s 响应时间（最大） 19.68s 答案错误: 13 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 3.2 编程 : 6.3 综合 : 3.0 数据解析与提取 : 2.9 领域专项 : 5.3 通用智能 : 4.6 指令遵循 : 6.5 谜题求解 : 3.6 工具调用 : 10.0 常识问答 : 3.0
#138#138	GLM 4.7 Flashmedium	4.5	Z.ai	$0.046	30.57s
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 36.8% 不稳定测试 8 输出令牌 39,759 推理令牌 73,598 响应时间（平均） 30.57s 响应时间（总计） 366.78s 响应时间（最大） 174.55s 答案错误: 9 未遵循指令: 2 无答案: 2 无效工具调用: 1 超时: 1 反AI技巧 : 4.7 编程 : 3.6 综合 : 2.8 数据解析与提取 : 6.3 领域专项 : 3.5 通用智能 : 3.6 指令遵循 : 6.2 谜题求解 : 2.9 工具调用 : 10.0 常识问答 : 3.0
#137#137	GPT-5.4 Nanonone	4.5	OpenAI	$0.010	1.36s
查看模型卡片总测试数 19 错误测试数 16 可靠性 10.0 尝试通过率 31.6% 不稳定测试 6 输出令牌 2,783 推理令牌 0 响应时间（平均） 1.36s 响应时间（总计） 25.91s 响应时间（最大） 3.84s 答案错误: 14 未遵循指令: 2 反AI技巧 : 3.5 编程 : 7.1 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 2.9 通用智能 : 3.8 指令遵循 : 6.3 谜题求解 : 3.7 工具调用 : 10.0 常识问答 : 3.0
#136#136	Nemotron 3 Nano Omni 30b A3b Reasoningnone	4.6	NVIDIA	$0.000	726ms
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 25.6% 不稳定测试 2 输出令牌 1,267 推理令牌 0 响应时间（平均） 726ms 响应时间（总计） 9.44s 响应时间（最大） 2.21s 答案错误: 10 未遵循指令: 1 反AI技巧 : 5.3 编程 : 10.0 综合 : 0.0 数据解析与提取 : 3.8 领域专项 : 3.6 通用智能 : 0.0 指令遵循 : 4.3 谜题求解 : 3.0 工具调用 : 0.0 常识问答 : 0.0
#135#135	Hy3 previewnone	4.6	Tencent	$0.000	12.96s
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 26.3% 不稳定测试 2 输出令牌 2,654 推理令牌 0 响应时间（平均） 12.96s 响应时间（总计） 233.26s 响应时间（最大） 35.84s 答案错误: 8 未遵循指令: 4 API 错误: 2 额外格式: 1 反AI技巧 : 4.8 编程 : 2.3 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.6 通用智能 : 4.1 指令遵循 : 6.3 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#134#134	Qwen3.5-9Bnone	4.7	Qwen	$0.005	1.51s
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 22.8% 不稳定测试 1 输出令牌 3,957 推理令牌 0 响应时间（平均） 1.51s 响应时间（总计） 28.75s 响应时间（最大） 5.91s 答案错误: 12 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 3.1 编程 : 5.2 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#133#133	Mercury 2none	4.7	Inception	$0.007	610ms
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 26.3% 不稳定测试 2 输出令牌 1,644 推理令牌 0 响应时间（平均） 610ms 响应时间（总计） 11.59s 响应时间（最大） 1.27s 答案错误: 14 未遵循指令: 1 反AI技巧 : 3.0 编程 : 3.6 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#132#132	Trinity Large Previewnone	4.8	Arcee AI	$0.001	3.03s
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 26.3% 不稳定测试 3 输出令牌 2,190 推理令牌 0 响应时间（平均） 3.03s 响应时间（总计） 57.60s 响应时间（最大） 14.34s 答案错误: 12 未遵循指令: 3 反AI技巧 : 3.1 编程 : 4.9 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.5 指令遵循 : 3.4 谜题求解 : 3.6 工具调用 : 10.0 常识问答 : 3.0
#131#131	Qwen3 Coder Nextmedium	4.8	Qwen	$0.008	9.95s
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 31.6% 不稳定测试 3 输出令牌 3,253 推理令牌 0 响应时间（平均） 9.95s 响应时间（总计） 129.40s 响应时间（最大） 81.80s 答案错误: 11 未遵循指令: 3 超时: 1 反AI技巧 : 3.5 编程 : 4.7 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 6.3 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#130#130	MiMo-V2.5none	4.9	Xiaomi	$0.019	2.02s
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 28.1% 不稳定测试 2 输出令牌 2,231 推理令牌 0 响应时间（平均） 2.02s 响应时间（总计） 38.45s 响应时间（最大） 6.86s 答案错误: 12 未遵循指令: 2 额外格式: 1 反AI技巧 : 3.5 编程 : 10.0 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 4.2 工具调用 : 10.0 常识问答 : 3.0
#129#129	GPT-4o-mininone	4.9	OpenAI	$0.005	1.90s
查看模型卡片总测试数 19 错误测试数 14 可靠性 10.0 尝试通过率 26.3% 不稳定测试 0 输出令牌 1,962 推理令牌 0 响应时间（平均） 1.90s 响应时间（总计） 22.79s 响应时间（最大） 7.58s 答案错误: 13 未遵循指令: 1 反AI技巧 : 4.8 编程 : 3.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.0 指令遵循 : 6.3 谜题求解 : 3.5 工具调用 : 10.0 常识问答 : 3.0
#128#128	Qwen3.6 35B A3Bnone	5.0	Qwen	$0.019	2.73s
查看模型卡片总测试数 19 错误测试数 13 可靠性 10.0 尝试通过率 37.3% 不稳定测试 5 输出令牌 17,515 推理令牌 0 响应时间（平均） 2.73s 响应时间（总计） 46.41s 响应时间（最大） 12.46s 答案错误: 11 未遵循指令: 2 反AI技巧 : 3.6 编程 : 10.0 综合 : 0.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.4 指令遵循 : 6.2 谜题求解 : 3.2 工具调用 : 0.0 常识问答 : 3.0
#127#127	GPT-5.4 Mininone	5.0	OpenAI	$0.032	1.18s
查看模型卡片总测试数 19 错误测试数 14 可靠性 10.0 尝试通过率 33.3% 不稳定测试 3 输出令牌 2,461 推理令牌 0 响应时间（平均） 1.18s 响应时间（总计） 22.34s 响应时间（最大） 2.52s 答案错误: 11 未遵循指令: 3 反AI技巧 : 3.1 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.8 指令遵循 : 6.3 谜题求解 : 5.4 工具调用 : 3.0 常识问答 : 3.0
#126#126	Mistral Small 4none	5.1	Mistral	$0.006	651ms
查看模型卡片总测试数 19 错误测试数 14 可靠性 10.0 尝试通过率 29.8% 不稳定测试 1 输出令牌 2,224 推理令牌 0 响应时间（平均） 651ms 响应时间（总计） 12.37s 响应时间（最大） 1.72s 答案错误: 13 未遵循指令: 1 反AI技巧 : 3.4 编程 : 4.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#125#125	MiniMax M2.7medium	5.1	Minimax	$0.095	30.62s
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 49.1% 不稳定测试 10 输出令牌 8,052 推理令牌 66,239 响应时间（平均） 30.62s 响应时间（总计） 551.14s 响应时间（最大） 117.04s 答案错误: 7 未遵循指令: 5 超时: 2 无效工具调用: 1 反AI技巧 : 7.9 编程 : 10.0 综合 : 4.7 数据解析与提取 : 6.3 领域专项 : 3.0 通用智能 : 3.9 指令遵循 : 3.8 谜题求解 : 3.5 工具调用 : 4.7 常识问答 : 3.0
#124#124	Nemotron 3 Supernone	5.2	NVIDIA	$0.002	5.80s
查看模型卡片总测试数 19 错误测试数 14 可靠性 10.0 尝试通过率 35.1% 不稳定测试 3 输出令牌 6,145 推理令牌 0 响应时间（平均） 5.80s 响应时间（总计） 110.20s 响应时间（最大） 16.45s 答案错误: 12 未遵循指令: 2 反AI技巧 : 4.8 编程 : 3.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.6 指令遵循 : 6.3 谜题求解 : 5.5 工具调用 : 4.7 常识问答 : 3.0
#123#123	Qwen3 Coder Nextnone	5.2	Qwen	$0.008	9.44s
查看模型卡片总测试数 19 错误测试数 14 可靠性 10.0 尝试通过率 29.8% 不稳定测试 1 输出令牌 3,629 推理令牌 0 响应时间（平均） 9.44s 响应时间（总计） 122.73s 响应时间（最大） 45.14s 答案错误: 12 额外格式: 1 未遵循指令: 1 反AI技巧 : 3.6 编程 : 7.3 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#122#122	DeepSeek V4 Flashnone	5.2	DeepSeek	$0.008	28.01s
查看模型卡片总测试数 19 错误测试数 14 可靠性 10.0 尝试通过率 31.6% 不稳定测试 2 输出令牌 4,464 推理令牌 0 响应时间（平均） 28.01s 响应时间（总计） 532.17s 响应时间（最大） 111.96s 答案错误: 10 额外格式: 2 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 3.0 编程 : 6.3 综合 : 4.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#121#121	gpt-oss-120bnone	5.2	OpenAI	$0.011	21.86s
查看模型卡片总测试数 19 错误测试数 14 可靠性 10.0 尝试通过率 36.8% 不稳定测试 3 输出令牌 51,505 推理令牌 0 响应时间（平均） 21.86s 响应时间（总计） 349.78s 响应时间（最大） 113.71s 答案错误: 8 API 错误: 3 未遵循指令: 3 反AI技巧 : 6.5 编程 : 4.3 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.8 指令遵循 : 9.8 谜题求解 : 4.4 工具调用 : 3.0 常识问答 : 3.0
#120#120	Ling-2.6-flashnone	5.3	Inclusionai	$0.001	9.76s
查看模型卡片总测试数 19 错误测试数 13 可靠性 10.0 尝试通过率 35.1% 不稳定测试 2 输出令牌 2,878 推理令牌 0 响应时间（平均） 9.76s 响应时间（总计） 185.37s 响应时间（最大） 35.34s 答案错误: 9 未遵循指令: 2 无效工具调用: 2 反AI技巧 : 6.8 编程 : 10.0 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.0 指令遵循 : 9.8 谜题求解 : 2.9 工具调用 : 3.0 常识问答 : 3.0
#119#119	Laguna Xs.2none	5.3	Poolside	$0.000	806ms
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 33.3% 不稳定测试 0 输出令牌 2,826 推理令牌 0 响应时间（平均） 806ms 响应时间（总计） 12.09s 响应时间（最大） 2.01s 答案错误: 8 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 3.0 编程 : 2.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 0.0 指令遵循 : 6.5 谜题求解 : 6.5 工具调用 : 3.0 常识问答 : 0.0
#118#118	Elephant Alphanone	5.3	Openrouter	$0.000	1.23s
查看模型卡片总测试数 19 错误测试数 13 可靠性不适用尝试通过率 31.5% 不稳定测试 1 输出令牌 2,573 推理令牌 0 响应时间（平均） 1.23s 响应时间（总计） 22.16s 响应时间（最大） 3.81s 答案错误: 9 未遵循指令: 3 无效工具调用: 1 反AI技巧 : 6.6 编程 : 6.4 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.0 指令遵循 : 9.8 谜题求解 : 4.0 工具调用 : 3.0 常识问答 : 0.0
#117#117	Laguna M.1none	5.4	Poolside	$0.000	2.89s
查看模型卡片总测试数 19 错误测试数 11 可靠性 9.8 尝试通过率 40.0% 不稳定测试 3 输出令牌 2,068 推理令牌 0 响应时间（平均） 2.89s 响应时间（总计） 43.40s 响应时间（最大） 15.42s 答案错误: 10 无效工具调用: 1 反AI技巧 : 3.6 编程 : 7.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 0.0 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 0.0
#116#116	GLM 5 Turbonone	5.4	Z.ai	$0.032	2.91s
查看模型卡片总测试数 19 错误测试数 13 可靠性 10.0 尝试通过率 35.1% 不稳定测试 2 输出令牌 1,791 推理令牌 0 响应时间（平均） 2.91s 响应时间（总计） 55.35s 响应时间（最大） 8.21s 答案错误: 11 未遵循指令: 2 反AI技巧 : 3.0 编程 : 5.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 5.5 工具调用 : 10.0 常识问答 : 3.0
#115#115	Grok 4.20none	5.4	X AI	$0.095	1.11s
查看模型卡片总测试数 18 错误测试数 12 可靠性不适用尝试通过率 35.2% 不稳定测试 1 输出令牌 1,967 推理令牌 0 响应时间（平均） 1.11s 响应时间（总计） 20.02s 响应时间（最大） 6.04s 答案错误: 10 额外格式: 1 无效工具调用: 1 反AI技巧 : 4.8 编程 : 3.4 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.8 指令遵循 : 6.3 谜题求解 : 5.3 工具调用 : 10.0

快速对比

Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro Previewmedium Gemini 3 Flash PreviewmediumvsClaude Opus 4.7medium Gemini 3 Flash PreviewmediumvsGPT-5.5medium Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewmediumvsQwen3.6 Max Previewmedium Gemini 3 Flash PreviewmediumvsRing 2.6 1tmedium免费可用 Gemini 3.1 Pro PreviewmediumvsClaude Opus 4.7medium Claude Opus 4.7mediumvsGPT-5.5medium GPT-5.5mediumvsGPT-5.5low GPT-5.5lowvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsQwen3.6 Max Previewmedium

AI 基准排行榜

筛选模型

快速对比