AI BENCHY

AI 基准排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-02 已评估模型: 174

174/174

排名	模型	分数	公司	总成本	响应时间（平均）
#151#151	MiniMax M2.5medium	4.7	Minimax	$0.164 ↓	65.37s
查看模型卡片总测试数 21 错误测试数 16 可靠性 10.0 尝试通过率 46.0% 不稳定测试 9 输入令牌 43,706 输出令牌 109,495 推理令牌 330,814 响应时间（平均） 65.37s 响应时间（总计） 849.76s 响应时间（最大） 251.36s 答案错误: 7 超时: 4 未遵循指令: 3 无效工具调用: 1 无答案: 1 反AI技巧 : 7.9 编程 : 3.4 综合 : 4.5 数据解析与提取 : 4.6 领域专项 : 2.9 通用智能 : 3.8 指令遵循 : 7.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#152#152	Ling-2.6-1Tnone	4.7	Inclusionai	$0.005 ↕	7.72s
查看模型卡片总测试数 21 错误测试数 18 可靠性不适用尝试通过率 14.3% 不稳定测试 0 输入令牌 34,905 输出令牌 2,434 推理令牌 0 响应时间（平均） 7.72s 响应时间（总计） 139.00s 响应时间（最大） 25.72s 答案错误: 12 API 错误: 3 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 3.4 编程 : 3.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 6.4 谜题求解 : 3.1 工具调用 : 3.0 常识问答 : 3.0
#153#153	Qwen3 Coder Nextmedium	4.7	Qwen	$0.008 ↓	8.58s
查看模型卡片总测试数 21 错误测试数 17 可靠性 10.0 尝试通过率 28.6% 不稳定测试 3 输入令牌 47,250 输出令牌 3,319 推理令牌 0 响应时间（平均） 8.58s 响应时间（总计） 128.68s 响应时间（最大） 81.80s 答案错误: 13 未遵循指令: 3 超时: 1 反AI技巧 : 3.5 编程 : 3.7 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 6.3 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#154#154	Grok 4.20 Betanone	4.7	X AI	$0.087 ↓	1.19s
查看模型卡片总测试数 18 错误测试数 12 可靠性不适用尝试通过率 31.8% 不稳定测试 1 输入令牌 40,597 输出令牌 1,657 推理令牌 0 响应时间（平均） 1.19s 响应时间（总计） 21.43s 响应时间（最大） 6.48s 答案错误: 10 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 4.0 编程 : 1.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 6.3 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 0.0
#155#155	Laguna M.1none	4.6	Poolside	$0.009 ↕	2.89s
查看模型卡片总测试数 19 错误测试数 15 可靠性 9.8 尝试通过率 28.6% 不稳定测试 3 输入令牌 38,147 输出令牌 2,054 推理令牌 0 响应时间（平均） 2.89s 响应时间（总计） 43.28s 响应时间（最大） 15.42s 答案错误: 10 API 错误: 4 无效工具调用: 1 反AI技巧 : 3.4 编程 : 2.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 3.0 指令遵循 : 6.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#156#156	Mercury 2none	4.6	Inception	$0.011	653ms
查看模型卡片总测试数 21 错误测试数 17 可靠性 10.0 尝试通过率 23.8% 不稳定测试 2 输入令牌 28,113 输出令牌 4,439 推理令牌 0 响应时间（平均） 653ms 响应时间（总计） 13.72s 响应时间（最大） 1.43s 答案错误: 16 未遵循指令: 1 反AI技巧 : 3.0 编程 : 3.4 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#157#157	Elephant Alphanone	4.6	Openrouter	$0.000	1.22s
查看模型卡片总测试数 21 错误测试数 16 可靠性不适用尝试通过率 27.0% 不稳定测试 1 输入令牌 33,743 输出令牌 2,573 推理令牌 0 响应时间（平均） 1.22s 响应时间（总计） 22.03s 响应时间（最大） 3.81s 答案错误: 9 API 错误: 3 未遵循指令: 3 无效工具调用: 1 反AI技巧 : 6.6 编程 : 4.2 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.0 指令遵循 : 9.8 谜题求解 : 4.2 工具调用 : 3.0 常识问答 : 3.0
#158#158	Elephant Alphamedium	4.5	Openrouter	$0.000	1.27s
查看模型卡片总测试数 21 错误测试数 15 可靠性不适用尝试通过率 30.2% 不稳定测试 1 输入令牌 33,744 输出令牌 2,596 推理令牌 0 响应时间（平均） 1.27s 响应时间（总计） 22.82s 响应时间（最大） 3.70s 答案错误: 9 API 错误: 3 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 6.6 编程 : 3.7 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.3 指令遵循 : 9.8 谜题求解 : 5.3 工具调用 : 3.0 常识问答 : 3.0
#159#159	Hunter Alphanone	4.5	OpenRouter	$0.000	4.70s
查看模型卡片总测试数 18 错误测试数 12 可靠性不适用尝试通过率 39.7% 不稳定测试 4 输入令牌 34,329 输出令牌 2,264 推理令牌 0 响应时间（平均） 4.70s 响应时间（总计） 79.86s 响应时间（最大） 15.17s 答案错误: 9 未遵循指令: 2 API 错误: 1 反AI技巧 : 3.5 编程 : 9.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 6.4 谜题求解 : 5.8 工具调用 : 10.0 常识问答 : 0.0
#160#160	Grok 4.20none	4.4	X AI	$0.057 ↓	1.11s
查看模型卡片总测试数 18 错误测试数 12 可靠性不适用尝试通过率 28.6% 不稳定测试 0 输入令牌 41,313 输出令牌 1,923 推理令牌 0 响应时间（平均） 1.11s 响应时间（总计） 19.96s 响应时间（最大） 6.04s 答案错误: 10 额外格式: 1 无效工具调用: 1 反AI技巧 : 4.8 编程 : 1.1 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.8 指令遵循 : 6.3 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 0.0
#161#161	Laguna Xs.2medium	4.3	Poolside	$0.015 ↕	6.73s
查看模型卡片总测试数 19 错误测试数 13 可靠性 10.0 尝试通过率 46.0% 不稳定测试 6 输入令牌 39,481 输出令牌 54,218 推理令牌 0 响应时间（平均） 6.73s 响应时间（总计） 100.98s 响应时间（最大） 29.11s 答案错误: 6 API 错误: 4 无答案: 2 无效工具调用: 1 反AI技巧 : 6.9 编程 : 2.1 综合 : 3.0 数据解析与提取 : 7.1 领域专项 : 4.1 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 4.7 常识问答 : 3.0
#162#162	GLM 4.7 Flashmedium	4.3	Z.ai	$0.054	35.10s
查看模型卡片总测试数 21 错误测试数 17 可靠性 6.7 尝试通过率 33.3% 不稳定测试 8 输入令牌 37,206 输出令牌 43,754 推理令牌 89,079 响应时间（平均） 35.10s 响应时间（总计） 456.24s 响应时间（最大） 174.55s 答案错误: 9 无答案: 3 未遵循指令: 2 超时: 2 无效工具调用: 1 反AI技巧 : 4.7 编程 : 3.2 综合 : 2.8 数据解析与提取 : 6.3 领域专项 : 3.5 通用智能 : 3.6 指令遵循 : 6.2 谜题求解 : 2.9 工具调用 : 10.0 常识问答 : 3.0
#163#163	Hy3 previewnone	4.3	Tencent	$0.003 ↕	12.92s
查看模型卡片总测试数 21 错误测试数 17 可靠性 10.0 尝试通过率 23.8% 不稳定测试 2 输入令牌 27,172 输出令牌 2,661 推理令牌 0 响应时间（平均） 12.92s 响应时间（总计） 232.64s 响应时间（最大） 35.84s 答案错误: 8 API 错误: 4 未遵循指令: 4 额外格式: 1 反AI技巧 : 4.8 编程 : 2.7 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.6 通用智能 : 4.1 指令遵循 : 6.3 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#164#164	MiMo-V2-Flashnone	4.3	Xiaomi	$0.025 ↑	2.76s
查看模型卡片总测试数 21 错误测试数 17 可靠性 6.7 尝试通过率 25.4% 不稳定测试 4 输入令牌 36,851 输出令牌 68,882 推理令牌 0 响应时间（平均） 2.76s 响应时间（总计） 46.99s 响应时间（最大） 19.68s 答案错误: 13 未遵循指令: 2 API 错误: 1 额外格式: 1 反AI技巧 : 3.2 编程 : 4.3 综合 : 3.0 数据解析与提取 : 2.9 领域专项 : 5.3 通用智能 : 4.6 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#165#165	Grok Build 0.1none	4.2	X AI	$0.547	28.69s
查看模型卡片总测试数 19 错误测试数 12 可靠性 10.0 尝试通过率 46.0% 不稳定测试 4 输入令牌 11,793 输出令牌 267,275 推理令牌 0 响应时间（平均） 28.69s 响应时间（总计） 459.00s 响应时间（最大） 138.35s 答案错误: 7 API 错误: 3 未遵循指令: 2 反AI技巧 : 8.7 编程 : 3.3 综合 : 3.0 数据解析与提取 : 3.8 领域专项 : 3.6 通用智能 : 4.3 指令遵循 : 9.8 谜题求解 : 6.4 工具调用 : 3.0 常识问答 : 3.0
#166#166	Grok 4.1 Fastnone	4.0	X AI	$0.008 ↓	1.62s
查看模型卡片总测试数 19 错误测试数 16 可靠性 10.0 尝试通过率 20.6% 不稳定测试 3 输入令牌 36,608 输出令牌 1,723 推理令牌 0 响应时间（平均） 1.62s 响应时间（总计） 19.48s 响应时间（最大） 5.51s 答案错误: 13 未遵循指令: 3 反AI技巧 : 3.2 编程 : 1.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.4 指令遵循 : 3.0 谜题求解 : 3.0 工具调用 : 2.8 常识问答 : 3.0
#167#167	Laguna Xs.2none	4.0	Poolside	$0.004 ↕	806ms
查看模型卡片总测试数 19 错误测试数 14 可靠性 10.0 尝试通过率 23.8% 不稳定测试 0 输入令牌 33,675 输出令牌 2,826 推理令牌 0 响应时间（平均） 806ms 响应时间（总计） 12.09s 响应时间（最大） 2.01s 答案错误: 8 API 错误: 4 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 3.0 编程 : 8.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 3.0 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 3.0 常识问答 : 3.0
#168#168	Granite 4.1 8Bnone	4.0	IBM Granite	$0.003	728ms
查看模型卡片总测试数 21 错误测试数 19 可靠性 10.0 尝试通过率 9.5% 不稳定测试 0 输入令牌 46,285 输出令牌 2,911 推理令牌 0 响应时间（平均） 728ms 响应时间（总计） 15.29s 响应时间（最大） 2.17s 答案错误: 13 未遵循指令: 4 额外格式: 1 无效工具调用: 1 反AI技巧 : 4.9 编程 : 4.5 综合 : 3.0 数据解析与提取 : 3.0 领域专项 : 3.0 通用智能 : 4.0 指令遵循 : 3.6 谜题求解 : 3.2 工具调用 : 10.0 常识问答 : 3.0
#169#169	gpt-oss-120bnone	4.0	OpenAI	$0.009 ↓	21.61s
查看模型卡片总测试数 19 错误测试数 13 可靠性 10.0 尝试通过率 34.9% 不稳定测试 2 输入令牌 9,081 输出令牌 51,664 推理令牌 0 响应时间（平均） 21.61s 响应时间（总计） 345.79s 响应时间（最大） 113.71s 答案错误: 8 API 错误: 3 未遵循指令: 2 反AI技巧 : 6.5 编程 : 1.5 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 3.0 通用智能 : 4.8 指令遵循 : 9.8 谜题求解 : 6.0 工具调用 : 3.0 常识问答 : 3.0
#170#170	Qwen3.5-9Bmedium	3.8	Qwen	$0.036 ↑	82.24s
查看模型卡片总测试数 21 错误测试数 18 可靠性 6.7 尝试通过率 27.0% 不稳定测试 5 输入令牌 17,070 输出令牌 29,045 推理令牌 209,516 响应时间（平均） 82.24s 响应时间（总计） 1315.88s 响应时间（最大） 226.38s 超时: 11 无答案: 2 答案错误: 2 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 5.1 编程 : 2.9 综合 : 3.0 数据解析与提取 : 3.6 领域专项 : 3.6 通用智能 : 2.8 指令遵循 : 6.5 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#171#171	Nemotron 3 Nano Omni 30b A3b Reasoningmedium	3.6	NVIDIA	$0.000	17.13s
查看模型卡片总测试数 19 错误测试数 15 可靠性 10.0 尝试通过率 28.6% 不稳定测试 5 输入令牌 11,661 输出令牌 48,491 推理令牌 180,695 响应时间（平均） 17.13s 响应时间（总计） 222.66s 响应时间（最大） 147.45s 答案错误: 7 API 错误: 6 未遵循指令: 1 无答案: 1 反AI技巧 : 6.4 编程 : 1.1 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 2.9 通用智能 : 3.0 指令遵循 : 7.3 谜题求解 : 2.9 工具调用 : 3.0 常识问答 : 3.0
#172#172	Nemotron 3 Nano Omni 30b A3b Reasoningnone	3.5	NVIDIA	$0.000	728ms
查看模型卡片总测试数 19 错误测试数 17 可靠性 10.0 尝试通过率 15.9% 不稳定测试 2 输入令牌 11,661 输出令牌 1,302 推理令牌 0 响应时间（平均） 728ms 响应时间（总计） 9.47s 响应时间（最大） 2.21s 答案错误: 9 API 错误: 6 未遵循指令: 2 反AI技巧 : 4.8 编程 : 3.3 综合 : 3.0 数据解析与提取 : 3.8 领域专项 : 3.6 通用智能 : 3.0 指令遵循 : 4.8 谜题求解 : 3.0 工具调用 : 3.0 常识问答 : 3.0
#173#173	Step 3.5 Flashnone	2.6	Stepfun	$0.020	39.03s
查看模型卡片总测试数 12 错误测试数 6 可靠性 10.0 尝试通过率 28.6% 不稳定测试 0 输入令牌 1,971 输出令牌 64,795 推理令牌 0 响应时间（平均） 39.03s 响应时间（总计） 312.26s 响应时间（最大） 114.12s API 错误: 4 未遵循指令: 1 答案错误: 1 反AI技巧 : 10.0 编程 : 9.8 综合 : 3.0 数据解析与提取 : 1.5 领域专项 : 3.3 通用智能 : 4.0 指令遵循 : 5.0 谜题求解 : 0.0 工具调用 : 3.0 常识问答 : 3.0
#174#174	LFM2-24B-A2Bnone	2.4	Liquid	$0.001	782ms
查看模型卡片总测试数 16 错误测试数 14 可靠性不适用尝试通过率 12.7% 不稳定测试 1 输入令牌 10,771 输出令牌 1,173 推理令牌 0 响应时间（平均） 782ms 响应时间（总计） 10.94s 响应时间（最大） 3.15s 答案错误: 9 API 错误: 4 未遵循指令: 1 反AI技巧 : 2.5 编程 : 0.0 综合 : 3.0 数据解析与提取 : 3.0 领域专项 : 5.9 通用智能 : 4.0 指令遵循 : 6.3 谜题求解 : 3.8 工具调用 : 3.0 常识问答 : 0.0

←

1 2 3 4 5 6

快速对比

Gemini 3.5 FlashhighvsGemini 3 Flash Previewmedium Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Gemini 3.5 FlashhighvsGPT-5.5low Gemini 3.5 FlashhighvsGemini 3.5 Flashlow Gemini 3.5 FlashhighvsClaude Fable 5medium Gemini 3.5 FlashhighvsGemini 3.1 Pro Previewmedium Gemini 3.5 FlashhighvsNemotron 3 Ultra 550b A55bmedium免费可用 Gemini 3.5 FlashhighvsNorth Mini Codemedium免费可用 Gemini 3 Flash PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGPT-5.5low GPT-5.5lowvsGemini 3.5 Flashlow Gemini 3.5 FlashlowvsClaude Fable 5medium

AI 基准排行榜

筛选模型

快速对比