AI Benchy 排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-18 已评估模型: 206

206/206

排名	模型	分数	公司	总成本	响应时间（平均）
#51#51	Nemotron 3 Ultramedium	7.5	NVIDIA	$0.774 ↕	32.21s
查看模型卡片总测试数 22 错误测试数 9 可靠性 9.8 尝试通过率 68.2% 不稳定测试 4 输入令牌 233,488 输出令牌 57,916 推理令牌 128,062 响应时间（平均） 32.21s 响应时间（总计） 708.65s 响应时间（最大） 392.56s 答案错误: 7 API 错误: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 8.4 综合 : 6.3 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 3.7 指令遵循 : 9.8 谜题求解 : 5.5 工具调用 : 10.0 常识问答 : 3.0
#42#42	GLM 5medium	7.7	Z.ai	$0.372 ↑	33.54s
查看模型卡片总测试数 21 错误测试数 6 可靠性 10.0 尝试通过率 78.8% 不稳定测试 4 输入令牌 35,224 输出令牌 21,570 推理令牌 102,996 响应时间（平均） 33.54s 响应时间（总计） 435.99s 响应时间（最大） 99.85s 答案错误: 3 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 5.0 数据解析与提取 : 7.1 领域专项 : 3.5 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#83#83	MiMo-V2.5-Promedium	6.9	Xiaomi	$0.187 ↓	33.92s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 66.7% 不稳定测试 5 输入令牌 139,883 输出令牌 15,521 推理令牌 130,992 响应时间（平均） 33.92s 响应时间（总计） 746.19s 响应时间（最大） 197.54s 额外格式: 3 答案错误: 3 未遵循指令: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 6.2 综合 : 6.9 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 9.9 谜题求解 : 6.7 工具调用 : 10.0 常识问答 : 3.0
#43#43	Claude Opus 4.6medium	7.7	Anthropic	$3.059	34.27s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 63.6% 不稳定测试 3 输入令牌 108,615 输出令牌 72,286 推理令牌 28,315 响应时间（平均） 34.27s 响应时间（总计） 513.99s 响应时间（最大） 151.51s 额外格式: 5 答案错误: 3 未遵循指令: 1 反AI技巧 : 6.4 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#146#146	DeepSeek V4 Flashnone	5.6	DeepSeek	$0.044 ↓	36.78s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 31.8% 不稳定测试 4 输入令牌 240,221 输出令牌 100,727 推理令牌 0 响应时间（平均） 36.78s 响应时间（总计） 809.09s 响应时间（最大） 247.27s 答案错误: 12 额外格式: 2 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 3.0 编程 : 4.2 综合 : 4.6 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#10#10	GPT-5.5medium	9.0	OpenAI	$4.137	38.42s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 87.9% 不稳定测试 3 输入令牌 80,659 输出令牌 5,617 推理令牌 118,819 响应时间（平均） 38.42s 响应时间（总计） 845.35s 响应时间（最大） 332.10s 答案错误: 4 反AI技巧 : 10.0 编程 : 8.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 2.8
#205#205	Step 3.5 Flashnone	2.3	Stepfun	$0.020	39.03s
查看模型卡片总测试数 12 错误测试数 6 可靠性 10.0 尝试通过率 27.3% 不稳定测试 0 输入令牌 1,971 输出令牌 64,795 推理令牌 0 响应时间（平均） 39.03s 响应时间（总计） 312.26s 响应时间（最大） 114.12s API 错误: 4 未遵循指令: 1 答案错误: 1 反AI技巧 : 10.0 编程 : 9.8 综合 : 1.5 数据解析与提取 : 1.5 领域专项 : 3.3 通用智能 : 4.0 指令遵循 : 5.0 谜题求解 : 0.0 工具调用 : 3.0 常识问答 : 3.0
#184#184	Cobuddymedium	4.7	Baidu	$0.000	39.90s
查看模型卡片总测试数 21 错误测试数 14 可靠性 10.0 尝试通过率 45.5% 不稳定测试 6 输入令牌 37,449 输出令牌 1,677 推理令牌 116,703 响应时间（平均） 39.90s 响应时间（总计） 797.98s 响应时间（最大） 309.02s 答案错误: 9 未遵循指令: 3 API 错误: 1 无效工具调用: 1 反AI技巧 : 8.7 编程 : 3.7 综合 : 1.5 数据解析与提取 : 6.3 领域专项 : 2.9 通用智能 : 4.2 指令遵循 : 9.8 谜题求解 : 3.6 工具调用 : 10.0 常识问答 : 3.0
#8#8	Qwen3.7 Maxmedium	9.2	Qwen	$1.116 ↓	40.57s
查看模型卡片总测试数 22 错误测试数 4 可靠性 10.0 尝试通过率 87.9% 不稳定测试 2 输入令牌 106,020 输出令牌 5,748 推理令牌 211,004 响应时间（平均） 40.57s 响应时间（总计） 892.57s 响应时间（最大） 556.06s 答案错误: 3 无效工具调用: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 8.7 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#130#130	Mimo V2 Omnimedium	5.9	Xiaomi	$0.683 ↓	41.16s
查看模型卡片总测试数 21 错误测试数 11 可靠性 10.0 尝试通过率 53.0% 不稳定测试 3 输入令牌 37,007 输出令牌 1,952 推理令牌 357,306 响应时间（平均） 41.16s 响应时间（总计） 823.26s 响应时间（最大） 299.23s 答案错误: 5 未遵循指令: 2 无答案: 2 API 错误: 1 额外格式: 1 反AI技巧 : 10.0 编程 : 3.3 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.4 指令遵循 : 8.3 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#168#168	MiniMax M2.7medium	5.0	Minimax	$0.163 ↓	41.28s
查看模型卡片总测试数 22 错误测试数 17 可靠性 10.0 尝试通过率 45.5% 不稳定测试 9 输入令牌 114,518 输出令牌 18,558 推理令牌 119,036 响应时间（平均） 41.28s 响应时间（总计） 866.81s 响应时间（最大） 196.21s 答案错误: 6 未遵循指令: 5 无答案: 2 超时: 2 API 错误: 1 无效工具调用: 1 反AI技巧 : 7.9 编程 : 5.7 综合 : 3.8 数据解析与提取 : 6.3 领域专项 : 3.0 通用智能 : 3.9 指令遵循 : 3.8 谜题求解 : 5.9 工具调用 : 4.7 常识问答 : 3.0
#37#37	Qwen3.6 Plusmedium	7.8	Qwen	$0.405 ↑	43.12s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 71.2% 不稳定测试 2 输入令牌 97,689 输出令牌 6,412 推理令牌 184,825 响应时间（平均） 43.12s 响应时间（总计） 905.53s 响应时间（最大） 291.55s 答案错误: 5 API 错误: 1 未遵循指令: 1 反AI技巧 : 10.0 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#84#84	Qwen3.6 Flashmedium	6.9	Qwen	$0.738 ↓	44.65s
查看模型卡片总测试数 22 错误测试数 10 可靠性 10.0 尝试通过率 68.2% 不稳定测试 5 输入令牌 129,041 输出令牌 20,026 推理令牌 614,312 响应时间（平均） 44.65s 响应时间（总计） 982.32s 响应时间（最大） 578.13s 答案错误: 8 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 10.0 编程 : 5.0 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.8 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#69#69	Qwen3.5 Plus 2026-04-20medium	7.2	Qwen	$0.317 ↓	46.36s
查看模型卡片总测试数 22 错误测试数 9 可靠性 9.6 尝试通过率 63.6% 不稳定测试 2 输入令牌 42,097 输出令牌 2,280 推理令牌 166,613 响应时间（平均） 46.36s 响应时间（总计） 973.57s 响应时间（最大） 189.38s 答案错误: 8 超时: 1 反AI技巧 : 10.0 编程 : 6.2 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.9 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#73#73	GLM 5.1medium	7.1	Z.ai	$0.535 ↓	46.77s
查看模型卡片总测试数 22 错误测试数 9 可靠性 8.3 尝试通过率 69.7% 不稳定测试 4 输入令牌 82,623 输出令牌 16,089 推理令牌 136,463 响应时间（平均） 46.77s 响应时间（总计） 982.16s 响应时间（最大） 308.75s 答案错误: 4 超时: 2 API 错误: 1 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 4.6 综合 : 9.8 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 8.2 工具调用 : 3.0 常识问答 : 3.0
#72#72	Grok 4.3medium	7.1	X AI	$0.779	47.45s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 68.2% 不稳定测试 4 输入令牌 140,031 输出令牌 13,739 推理令牌 227,682 响应时间（平均） 47.45s 响应时间（总计） 1043.83s 响应时间（最大） 216.69s 答案错误: 5 未遵循指令: 2 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 5.9 综合 : 6.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.4 指令遵循 : 9.8 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#99#99	Laguna XS 2.1medium	6.5	Poolside	$0.068	47.93s
查看模型卡片总测试数 22 错误测试数 13 可靠性 10.0 尝试通过率 42.4% 不稳定测试 1 输入令牌 118,989 输出令牌 30,750 推理令牌 491,833 响应时间（平均） 47.93s 响应时间（总计） 1054.49s 响应时间（最大） 422.72s 答案错误: 11 无效工具调用: 1 无答案: 1 反AI技巧 : 4.8 编程 : 5.5 综合 : 6.3 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.0 指令遵循 : 9.8 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#35#35	Seed-2.0-Litemedium	7.9	Bytedance Seed	$0.234	48.53s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 74.2% 不稳定测试 4 输入令牌 129,897 输出令牌 12,533 推理令牌 88,047 响应时间（平均） 48.53s 响应时间（总计） 1067.74s 响应时间（最大） 254.92s 答案错误: 5 未遵循指令: 2 无答案: 1 反AI技巧 : 8.3 编程 : 8.0 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 6.7 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0 常识问答 : 3.0
#45#45	DeepSeek V4 Flashhigh	7.7	DeepSeek	$0.042 ↓	49.75s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 72.7% 不稳定测试 5 输入令牌 108,392 输出令牌 14,478 推理令牌 153,687 响应时间（平均） 49.75s 响应时间（总计） 1094.41s 响应时间（最大） 218.13s 答案错误: 6 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 8.3 编程 : 7.8 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#36#36	Qwen3.7 Plusmedium	7.9	Qwen	$0.267 ↓	51.51s
查看模型卡片总测试数 22 错误测试数 7 可靠性 10.0 尝试通过率 75.8% 不稳定测试 3 输入令牌 115,233 输出令牌 6,162 推理令牌 173,267 响应时间（平均） 51.51s 响应时间（总计） 1133.15s 响应时间（最大） 315.30s 答案错误: 5 无效工具调用: 1 超时: 1 反AI技巧 : 10.0 编程 : 6.1 综合 : 8.2 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#136#136	Nemotron 3 Supermedium	5.7	NVIDIA	$0.066 ↑	51.99s
查看模型卡片总测试数 22 错误测试数 14 可靠性 8.7 尝试通过率 40.9% 不稳定测试 3 输入令牌 81,429 输出令牌 18,371 推理令牌 98,853 响应时间（平均） 51.99s 响应时间（总计） 1039.89s 响应时间（最大） 431.98s 答案错误: 5 API 错误: 4 未遵循指令: 3 无答案: 1 超时: 1 反AI技巧 : 8.3 编程 : 3.1 综合 : 6.4 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.1 指令遵循 : 7.3 谜题求解 : 3.0 工具调用 : 10.0 常识问答 : 3.0
#48#48	Grok Build 0.1medium	7.6	X AI	$1.097	52.06s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 63.6% 不稳定测试 0 输入令牌 106,751 输出令牌 7,993 推理令牌 486,670 响应时间（平均） 52.06s 响应时间（总计） 1145.27s 响应时间（最大） 252.69s 答案错误: 5 额外格式: 3 反AI技巧 : 8.3 编程 : 5.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#124#124	GPT-5 Nanomedium	6.1	OpenAI	$0.114	54.87s
查看模型卡片总测试数 22 错误测试数 13 可靠性 10.0 尝试通过率 56.1% 不稳定测试 8 输入令牌 94,935 输出令牌 12,042 推理令牌 261,056 响应时间（平均） 54.87s 响应时间（总计） 822.99s 响应时间（最大） 227.89s 答案错误: 9 未遵循指令: 2 无答案: 1 超时: 1 反AI技巧 : 6.5 编程 : 7.0 综合 : 6.4 数据解析与提取 : 3.7 领域专项 : 5.2 通用智能 : 4.1 指令遵循 : 9.8 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#175#175	Ring-2.6-1Tnone	4.8	Inclusionai	$0.026 ↕	55.10s
查看模型卡片总测试数 22 错误测试数 13 可靠性 10.0 尝试通过率 45.5% 不稳定测试 2 输入令牌 7,599 输出令牌 39,954 推理令牌 0 响应时间（平均） 55.10s 响应时间（总计） 881.55s 响应时间（最大） 143.82s API 错误: 6 答案错误: 5 未遵循指令: 2 反AI技巧 : 9.2 编程 : 5.3 综合 : 3.0 数据解析与提取 : 3.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 3.0 常识问答 : 3.0
#131#131	Hy3 previewhigh	5.9	Tencent	$0.048 ↕	56.57s
查看模型卡片总测试数 21 错误测试数 10 可靠性 10.0 尝试通过率 53.0% 不稳定测试 2 输入令牌 25,987 输出令牌 216,719 推理令牌 0 响应时间（平均） 56.57s 响应时间（总计） 848.59s 响应时间（最大） 149.94s API 错误: 7 答案错误: 3 反AI技巧 : 6.4 编程 : 5.3 综合 : 5.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 3.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#89#89	Qwen3.6 35B A3Bmedium	6.7	Qwen	$0.746 ↑	58.06s
查看模型卡片总测试数 22 错误测试数 9 可靠性 10.0 尝试通过率 60.6% 不稳定测试 1 输入令牌 85,139 输出令牌 61,819 推理令牌 678,766 响应时间（平均） 58.06s 响应时间（总计） 1161.18s 响应时间（最大） 817.57s 答案错误: 4 API 错误: 2 未遵循指令: 1 无效工具调用: 1 无答案: 1 反AI技巧 : 10.0 编程 : 7.7 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 10.0 谜题求解 : 8.0 工具调用 : 3.0 常识问答 : 3.0
#22#22	Grok 4.5medium	8.3	X AI	$1.928	61.71s
查看模型卡片总测试数 22 错误测试数 6 可靠性 10.0 尝试通过率 78.8% 不稳定测试 3 输入令牌 122,146 输出令牌 5,514 推理令牌 275,053 响应时间（平均） 61.71s 响应时间（总计） 1357.56s 响应时间（最大） 436.38s 答案错误: 6 反AI技巧 : 10.0 编程 : 7.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.5 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#139#139	Gemini 3.1 Flash Litehigh	5.6	Google	$2.044	61.96s
查看模型卡片总测试数 18 错误测试数 8 可靠性 10.0 尝试通过率 56.1% 不稳定测试 4 输入令牌 29,134 输出令牌 1,984 推理令牌 1,355,583 响应时间（平均） 61.96s 响应时间（总计） 1115.31s 响应时间（最大） 149.23s 答案错误: 4 未遵循指令: 3 无答案: 1 反AI技巧 : 8.7 编程 : 3.3 综合 : 5.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 5.0 指令遵循 : 7.3 谜题求解 : 5.7 工具调用 : 10.0 常识问答 : 0.0
#31#31	GLM 5.2high	8.0	Z.ai	$0.296 ↓	62.65s
查看模型卡片总测试数 22 错误测试数 8 可靠性 10.0 尝试通过率 71.2% 不稳定测试 3 输入令牌 83,813 输出令牌 69,688 推理令牌 225,659 响应时间（平均） 62.65s 响应时间（总计） 1378.34s 响应时间（最大） 599.43s 超时: 3 答案错误: 3 未遵循指令: 1 无答案: 1 反AI技巧 : 10.0 编程 : 6.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#28#28	Inklinghigh	8.0	Thinkingmachines	$1.006	64.16s
查看模型卡片总测试数 22 错误测试数 7 可靠性 9.8 尝试通过率 77.3% 不稳定测试 3 输入令牌 86,746 输出令牌 6,055 推理令牌 220,791 响应时间（平均） 64.16s 响应时间（总计） 1411.59s 响应时间（最大） 327.51s 答案错误: 4 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 10.0 编程 : 8.5 综合 : 7.3 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 6.9 工具调用 : 3.0 常识问答 : 3.0

←

1 2 3 4 5 6 7

→

快速对比

AI Benchy 排行榜

筛选模型

快速对比