AI BENCHY

AI 基准排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-05-10 已评估模型: 144

144/144

排名	模型	分数	公司	总成本	响应时间（平均）
#31#31	Qwen3.5-122B-A10Bmedium	7.9	Qwen	$0.561	32.51s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 75.4% 不稳定测试 3 输出令牌 18,457 推理令牌 177,734 响应时间（平均） 32.51s 响应时间（总计） 617.70s 响应时间（最大） 119.29s 答案错误: 4 超时: 2 反AI技巧 : 10.0 编程 : 4.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.4 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#32#32	MiMo-V2.5medium	7.8	Xiaomi	$0.253	14.40s
查看模型卡片总测试数 18 错误测试数 6 可靠性 10.0 尝试通过率 75.9% 不稳定测试 3 输出令牌 2,821 推理令牌 116,207 响应时间（平均） 14.40s 响应时间（总计） 259.20s 响应时间（最大） 86.93s 额外格式: 2 答案错误: 2 未遵循指令: 1 无答案: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 2.7 领域专项 : 5.3 通用智能 : 5.4 指令遵循 : 9.9 谜题求解 : 8.2 工具调用 : 10.0
#33#33	Qwen3.5 Plus 2026-04-20medium	7.8	Qwen	$0.305	35.96s
查看模型卡片总测试数 19 错误测试数 6 可靠性 9.6 尝试通过率 73.7% 不稳定测试 2 输出令牌 2,206 推理令牌 118,998 响应时间（平均） 35.96s 响应时间（总计） 683.23s 响应时间（最大） 92.57s 答案错误: 6 反AI技巧 : 10.0 编程 : 7.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.9 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#34#34	Hy3 previewmedium	7.8	Tencent	$0.000	16.03s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 70.2% 不稳定测试 1 输出令牌 72,551 推理令牌 0 响应时间（平均） 16.03s 响应时间（总计） 288.59s 响应时间（最大） 46.04s 答案错误: 4 API 错误: 1 未遵循指令: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#35#35	Claude Sonnet 4.6medium	7.8	Anthropic	$1.237	14.25s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 70.2% 不稳定测试 1 输出令牌 45,505 推理令牌 28,370 响应时间（平均） 14.25s 响应时间（总计） 156.71s 响应时间（最大） 46.35s 答案错误: 3 额外格式: 2 超时: 1 反AI技巧 : 6.5 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#36#36	Step 3.5 Flashnone	7.8	Stepfun	$0.020	39.03s
查看模型卡片总测试数 12 错误测试数 3 可靠性 10.0 尝试通过率 66.7% 不稳定测试 0 输出令牌 64,795 推理令牌 0 响应时间（平均） 39.03s 响应时间（总计） 312.26s 响应时间（最大） 114.12s API 错误: 1 未遵循指令: 1 答案错误: 1 反AI技巧 : 10.0 编程 : 3.0 综合 : 0.0 数据解析与提取 : 0.0 领域专项 : 10.0 通用智能 : 4.0 指令遵循 : 10.0 工具调用 : 0.0 常识问答 : 3.0
#37#37	MiMo-V2-Promedium	7.7	Xiaomi	$0.212	16.18s
查看模型卡片总测试数 19 错误测试数 7 可靠性 9.4 尝试通过率 77.2% 不稳定测试 4 输出令牌 2,514 推理令牌 55,816 响应时间（平均） 16.18s 响应时间（总计） 307.48s 响应时间（最大） 82.71s 答案错误: 4 额外格式: 1 未遵循指令: 1 超时: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 4.7 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 6.4 工具调用 : 10.0 常识问答 : 3.0
#38#38	Gemma 4 26B A4Bmedium	7.7	Google	$0.034	33.69s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 73.7% 不稳定测试 3 输出令牌 16,725 推理令牌 61,536 响应时间（平均） 33.69s 响应时间（总计） 606.35s 响应时间（最大） 180.87s 答案错误: 4 超时: 2 反AI技巧 : 10.0 编程 : 2.8 综合 : 9.6 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#39#39	Hy3 previewlow	7.7	Tencent	$0.000	24.58s
查看模型卡片总测试数 19 错误测试数 5 可靠性 10.0 尝试通过率 72.9% 不稳定测试 1 输出令牌 63,155 推理令牌 0 响应时间（平均） 24.58s 响应时间（总计） 368.71s 响应时间（最大） 78.74s 答案错误: 4 API 错误: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 6.5 领域专项 : 5.9 通用智能 : 0.0 指令遵循 : 10.0 谜题求解 : 6.5 工具调用 : 6.6 常识问答 : 3.0
#40#40	Gemini 3.1 Flash Lite Previewnone	7.7	Google	$0.016	1.28s
查看模型卡片总测试数 19 错误测试数 7 可靠性 10.0 尝试通过率 66.7% 不稳定测试 1 输出令牌 5,370 推理令牌 0 响应时间（平均） 1.28s 响应时间（总计） 24.23s 响应时间（最大） 3.39s 答案错误: 5 未遵循指令: 2 反AI技巧 : 7.5 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#41#41	GPT-5.2 Chatnone	7.6	OpenAI	$0.309	6.85s
查看模型卡片总测试数 19 错误测试数 7 可靠性 10.0 尝试通过率 71.9% 不稳定测试 3 输出令牌 18,585 推理令牌 0 响应时间（平均） 6.85s 响应时间（总计） 130.06s 响应时间（最大） 38.52s 答案错误: 5 未遵循指令: 2 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 7.3 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#42#42	Kimi K2.6medium	7.6	Moonshot AI	$0.778	49.92s
查看模型卡片总测试数 19 错误测试数 7 可靠性 10.0 尝试通过率 71.9% 不稳定测试 3 输出令牌 96,469 推理令牌 195,991 响应时间（平均） 49.92s 响应时间（总计） 898.64s 响应时间（最大） 215.85s 答案错误: 3 未遵循指令: 2 超时: 2 反AI技巧 : 7.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#43#43	Step 3.5 Flashmedium	7.6	Stepfun	$0.011	41.66s
查看模型卡片总测试数 18 错误测试数 7 可靠性 10.0 尝试通过率 66.7% 不稳定测试 2 输出令牌 78,299 推理令牌 173,409 响应时间（平均） 41.66s 响应时间（总计） 499.91s 响应时间（最大） 170.45s 答案错误: 4 未遵循指令: 3 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 8.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#44#44	Gemini 3.1 Flash Litelow	7.6	Google	$0.025	1.92s
查看模型卡片总测试数 19 错误测试数 7 可靠性 10.0 尝试通过率 68.4% 不稳定测试 2 输出令牌 2,702 推理令牌 8,596 响应时间（平均） 1.92s 响应时间（总计） 36.49s 响应时间（最大） 5.66s 答案错误: 7 反AI技巧 : 7.3 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#45#45	Qwen3.5-Flashmedium	7.6	Qwen	$0.089	65.79s
查看模型卡片总测试数 19 错误测试数 8 可靠性 6.7 尝试通过率 77.2% 不稳定测试 6 输出令牌 2,105 推理令牌 228,936 响应时间（平均） 65.79s 响应时间（总计） 1250.00s 响应时间（最大） 234.29s 超时: 3 答案错误: 3 API 错误: 1 未遵循指令: 1 反AI技巧 : 10.0 编程 : 4.7 综合 : 10.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 6.6 工具调用 : 10.0 常识问答 : 3.0
#46#46	GPT-5.3 Chatnone	7.6	OpenAI	$0.348	5.80s
查看模型卡片总测试数 19 错误测试数 7 可靠性 10.0 尝试通过率 70.2% 不稳定测试 3 输出令牌 21,353 推理令牌 0 响应时间（平均） 5.80s 响应时间（总计） 110.27s 响应时间（最大） 18.33s 答案错误: 5 未遵循指令: 2 反AI技巧 : 6.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.6 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#47#47	GLM 5.1medium	7.6	Z.ai	$0.209	24.43s
查看模型卡片总测试数 19 错误测试数 7 可靠性 0.0 尝试通过率 71.9% 不稳定测试 3 输出令牌 8,087 推理令牌 51,269 响应时间（平均） 24.43s 响应时间（总计） 439.65s 响应时间（最大） 118.52s 答案错误: 4 超时: 2 API 错误: 1 反AI技巧 : 10.0 编程 : 4.7 综合 : 9.5 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 8.2 工具调用 : 3.0 常识问答 : 3.0
#48#48	DeepSeek V4 Flashhigh	7.6	DeepSeek	$0.033	45.88s
查看模型卡片总测试数 19 错误测试数 8 可靠性 10.0 尝试通过率 75.4% 不稳定测试 5 输出令牌 10,281 推理令牌 98,830 响应时间（平均） 45.88s 响应时间（总计） 871.76s 响应时间（最大） 218.13s 答案错误: 6 未遵循指令: 2 反AI技巧 : 8.3 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 6.4 工具调用 : 10.0 常识问答 : 3.0
#49#49	GLM 5V Turbomedium	7.5	Z.ai	$0.322	16.33s
查看模型卡片总测试数 19 错误测试数 8 可靠性 10.0 尝试通过率 73.7% 不稳定测试 6 输出令牌 2,373 推理令牌 66,463 响应时间（平均） 16.33s 响应时间（总计） 310.29s 响应时间（最大） 67.08s 答案错误: 5 无效工具调用: 2 未遵循指令: 1 反AI技巧 : 7.2 编程 : 10.0 综合 : 6.9 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.6 工具调用 : 7.0 常识问答 : 3.0
#50#50	Qwen3.6 Flashmedium	7.5	Qwen	$0.305	15.85s
查看模型卡片总测试数 19 错误测试数 8 可靠性 10.0 尝试通过率 71.9% 不稳定测试 5 输出令牌 2,830 推理令牌 194,258 响应时间（平均） 15.85s 响应时间（总计） 301.13s 响应时间（最大） 122.87s 答案错误: 6 未遵循指令: 2 反AI技巧 : 10.0 编程 : 6.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.8 指令遵循 : 10.0 谜题求解 : 6.1 工具调用 : 10.0 常识问答 : 3.0
#51#51	Gemini 3.1 Flash Litehigh	7.5	Google	$2.044	61.96s
查看模型卡片总测试数 18 错误测试数 7 可靠性 9.8 尝试通过率 74.1% 不稳定测试 4 输出令牌 1,984 推理令牌 1,355,583 响应时间（平均） 61.96s 响应时间（总计） 1115.31s 响应时间（最大） 149.23s 未遵循指令: 3 答案错误: 3 无答案: 1 反AI技巧 : 9.4 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 5.0 指令遵循 : 7.3 谜题求解 : 5.7 工具调用 : 10.0
#52#52	Claude Opus 4.6medium	7.4	Anthropic	$1.710	24.59s
查看模型卡片总测试数 19 错误测试数 7 可靠性 10.0 尝试通过率 66.7% 不稳定测试 2 输出令牌 37,874 推理令牌 21,390 响应时间（平均） 24.59s 响应时间（总计） 295.08s 响应时间（最大） 83.40s 额外格式: 4 答案错误: 3 反AI技巧 : 6.4 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#53#53	GPT-5.4 Nanomedium	7.3	OpenAI	$0.084	10.87s
查看模型卡片总测试数 19 错误测试数 8 可靠性 10.0 尝试通过率 64.9% 不稳定测试 2 输出令牌 3,016 推理令牌 59,306 响应时间（平均） 10.87s 响应时间（总计） 206.61s 响应时间（最大） 94.06s 答案错误: 6 未遵循指令: 2 反AI技巧 : 8.3 编程 : 10.0 综合 : 9.8 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.5 指令遵循 : 9.8 谜题求解 : 3.7 工具调用 : 10.0 常识问答 : 3.0
#54#54	Qwen3.6 Max Previewnone	7.2	Qwen	$0.083	3.31s
查看模型卡片总测试数 19 错误测试数 8 可靠性 10.0 尝试通过率 64.9% 不稳定测试 2 输出令牌 4,751 推理令牌 0 响应时间（平均） 3.31s 响应时间（总计） 62.80s 响应时间（最大） 20.51s 答案错误: 8 反AI技巧 : 5.2 编程 : 5.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 4.3 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#55#55	Ring 2.6 1tmedium	7.2	Inclusionai	$0.000	61.29s
查看模型卡片总测试数 19 错误测试数 8 可靠性 9.9 尝试通过率 66.7% 不稳定测试 3 输出令牌 21,752 推理令牌 42,754 响应时间（平均） 61.29s 响应时间（总计） 1164.50s 响应时间（最大） 304.19s 答案错误: 6 未遵循指令: 2 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 6.5 领域专项 : 3.5 通用智能 : 4.1 指令遵循 : 9.8 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#56#56	MiMo-V2-Flashmedium	7.2	Xiaomi	$0.038	21.71s
查看模型卡片总测试数 19 错误测试数 8 可靠性 10.0 尝试通过率 66.7% 不稳定测试 3 输出令牌 12,399 推理令牌 115,182 响应时间（平均） 21.71s 响应时间（总计） 282.29s 响应时间（最大） 96.01s 答案错误: 4 API 错误: 1 额外格式: 1 未遵循指令: 1 超时: 1 反AI技巧 : 8.1 编程 : 4.7 综合 : 9.8 数据解析与提取 : 6.5 领域专项 : 5.9 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#57#57	Ring 2.6 1tnone	7.2	Inclusionai	$0.000	55.10s
查看模型卡片总测试数 19 错误测试数 7 可靠性 9.8 尝试通过率 62.5% 不稳定测试 2 输出令牌 39,954 推理令牌 0 响应时间（平均） 55.10s 响应时间（总计） 881.55s 响应时间（最大） 143.82s 答案错误: 5 未遵循指令: 2 反AI技巧 : 9.2 编程 : 10.0 综合 : 0.0 数据解析与提取 : 3.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 0.0 常识问答 : 3.0
#58#58	Seed-2.0-Minimedium	7.2	Bytedance Seed	$0.038	68.89s
查看模型卡片总测试数 19 错误测试数 8 可靠性 3.3 尝试通过率 63.2% 不稳定测试 2 输出令牌 2,469 推理令牌 81,017 响应时间（平均） 68.89s 响应时间（总计） 1102.23s 响应时间（最大） 262.83s 超时: 4 答案错误: 3 未遵循指令: 1 反AI技巧 : 6.6 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#59#59	Qwen3.5-35B-A3Bmedium	7.2	Qwen	$0.481	51.50s
查看模型卡片总测试数 19 错误测试数 9 可靠性 6.7 尝试通过率 75.4% 不稳定测试 7 输出令牌 21,056 推理令牌 280,814 响应时间（平均） 51.50s 响应时间（总计） 978.57s 响应时间（最大） 177.35s 超时: 4 答案错误: 3 API 错误: 1 无答案: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 4.7 数据解析与提取 : 7.3 领域专项 : 4.1 通用智能 : 2.8 指令遵循 : 10.0 谜题求解 : 6.4 工具调用 : 10.0 常识问答 : 3.0
#60#60	GPT-5.2medium	7.2	OpenAI	$0.397	15.22s
查看模型卡片总测试数 19 错误测试数 8 可靠性 10.0 尝试通过率 68.4% 不稳定测试 4 输出令牌 2,731 推理令牌 22,200 响应时间（平均） 15.22s 响应时间（总计） 182.59s 响应时间（最大） 77.80s 未遵循指令: 3 答案错误: 3 无答案: 1 超时: 1 反AI技巧 : 6.5 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 3.7 指令遵循 : 9.9 谜题求解 : 7.6 工具调用 : 4.7 常识问答 : 3.0

快速对比

Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro Previewmedium Gemini 3 Flash PreviewmediumvsClaude Opus 4.7medium Gemini 3 Flash PreviewmediumvsGPT-5.5medium Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewmediumvsQwen3.6 Max Previewmedium Gemini 3 Flash PreviewmediumvsRing 2.6 1tmedium免费可用 Gemini 3.1 Pro PreviewmediumvsClaude Opus 4.7medium Claude Opus 4.7mediumvsGPT-5.5medium GPT-5.5mediumvsGPT-5.5low GPT-5.5lowvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsQwen3.6 Max Previewmedium

AI 基准排行榜

筛选模型

快速对比