AI BENCHY

AI 基准排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-05-10 已评估模型: 144

144/144

排名	模型	分数	公司	总成本	响应时间（平均）
#61#61	DeepSeek V3.2medium	7.2	DeepSeek	$0.031	46.06s
查看模型卡片总测试数 19 错误测试数 8 可靠性 10.0 尝试通过率 72.8% 不稳定测试 6 输出令牌 7,035 推理令牌 53,765 响应时间（平均） 46.06s 响应时间（总计） 875.23s 响应时间（最大） 180.92s 答案错误: 4 未遵循指令: 2 超时: 2 反AI技巧 : 9.2 编程 : 4.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.8 指令遵循 : 10.0 谜题求解 : 6.7 工具调用 : 10.0 常识问答 : 3.0
#62#62	GPT-5.4 Minimedium	7.2	OpenAI	$0.345	16.00s
查看模型卡片总测试数 19 错误测试数 9 可靠性 10.0 尝试通过率 68.4% 不稳定测试 5 输出令牌 2,163 推理令牌 69,741 响应时间（平均） 16.00s 响应时间（总计） 303.99s 响应时间（最大） 102.91s 答案错误: 5 未遵循指令: 4 反AI技巧 : 8.6 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 4.5 指令遵循 : 7.4 谜题求解 : 7.8 工具调用 : 4.7 常识问答 : 3.0
#63#63	Claude Sonnet 4.6none	7.2	Anthropic	$0.269	4.96s
查看模型卡片总测试数 19 错误测试数 8 可靠性 10.0 尝试通过率 61.4% 不稳定测试 1 输出令牌 7,864 推理令牌 0 响应时间（平均） 4.96s 响应时间（总计） 59.50s 响应时间（最大） 23.84s 答案错误: 4 额外格式: 3 未遵循指令: 1 反AI技巧 : 4.8 编程 : 10.0 综合 : 9.5 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 6.1 指令遵循 : 6.5 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#64#64	MiMo-V2-Omnimedium	7.2	Xiaomi	$0.451	27.58s
查看模型卡片总测试数 19 错误测试数 9 可靠性 10.0 尝试通过率 59.7% 不稳定测试 2 输出令牌 1,925 推理令牌 216,652 响应时间（平均） 27.58s 响应时间（总计） 524.03s 响应时间（最大） 234.19s 答案错误: 5 未遵循指令: 2 额外格式: 1 无答案: 1 反AI技巧 : 10.0 编程 : 4.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.4 指令遵循 : 8.3 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#65#65	Laguna M.1medium	6.9	Poolside	$0.000	14.38s
查看模型卡片总测试数 19 错误测试数 7 可靠性 10.0 尝试通过率 64.4% 不稳定测试 3 输出令牌 56,620 推理令牌 0 响应时间（平均） 14.38s 响应时间（总计） 215.70s 响应时间（最大） 53.14s 答案错误: 4 无答案: 2 未遵循指令: 1 反AI技巧 : 7.7 编程 : 4.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 0.0 指令遵循 : 10.0 谜题求解 : 3.8 工具调用 : 10.0 常识问答 : 0.0
#66#66	Gemma 4 31Bnone	6.9	Google	$0.003	3.86s
查看模型卡片总测试数 19 错误测试数 9 可靠性 10.0 尝试通过率 52.6% 不稳定测试 0 输出令牌 1,371 推理令牌 0 响应时间（平均） 3.86s 响应时间（总计） 65.57s 响应时间（最大） 26.13s 答案错误: 6 API 错误: 2 未遵循指令: 1 反AI技巧 : 6.5 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 6.5 谜题求解 : 6.5 工具调用 : 3.0 常识问答 : 3.0
#67#67	DeepSeek V4 Prohigh	6.9	DeepSeek	$0.212	58.93s
查看模型卡片总测试数 19 错误测试数 8 可靠性 9.3 尝试通过率 70.2% 不稳定测试 4 输出令牌 12,211 推理令牌 53,774 响应时间（平均） 58.93s 响应时间（总计） 1119.75s 响应时间（最大） 358.35s 答案错误: 6 未遵循指令: 2 反AI技巧 : 7.4 编程 : 2.6 综合 : 10.0 数据解析与提取 : 8.8 领域专项 : 3.0 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 7.4 工具调用 : 10.0 常识问答 : 3.0
#68#68	Grok 4.20medium	6.9	X AI	$0.756	14.53s
查看模型卡片总测试数 19 错误测试数 9 可靠性 10.0 尝试通过率 63.2% 不稳定测试 4 输出令牌 1,784 推理令牌 128,233 响应时间（平均） 14.53s 响应时间（总计） 276.06s 响应时间（最大） 63.48s 答案错误: 5 未遵循指令: 2 额外格式: 1 无答案: 1 反AI技巧 : 8.2 编程 : 4.3 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 3.9 指令遵循 : 7.3 谜题求解 : 7.7 工具调用 : 3.0 常识问答 : 3.0
#69#69	GPT-5 Minimedium	6.8	OpenAI	$0.132	23.24s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 57.9% 不稳定测试 3 输出令牌 6,539 推理令牌 55,338 响应时间（平均） 23.24s 响应时间（总计） 441.55s 响应时间（最大） 88.15s 答案错误: 5 未遵循指令: 4 超时: 1 反AI技巧 : 7.1 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.5 指令遵循 : 7.9 谜题求解 : 5.6 工具调用 : 10.0 常识问答 : 3.0
#70#70	Gemini 3.1 Flash Liteminimal	6.8	Google	$0.012	1.41s
查看模型卡片总测试数 19 错误测试数 9 可靠性 10.0 尝试通过率 59.7% 不稳定测试 3 输出令牌 2,457 推理令牌 0 响应时间（平均） 1.41s 响应时间（总计） 26.72s 响应时间（最大） 4.49s 答案错误: 6 未遵循指令: 3 反AI技巧 : 8.3 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 6.0 工具调用 : 10.0 常识问答 : 3.0
#71#71	Kimi K2.5medium	6.8	Moonshot AI	$0.236	73.39s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 68.4% 不稳定测试 7 输出令牌 42,188 推理令牌 92,514 响应时间（平均） 73.39s 响应时间（总计） 880.65s 响应时间（最大） 150.77s 答案错误: 5 未遵循指令: 2 超时: 2 无答案: 1 反AI技巧 : 7.3 编程 : 4.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 6.5 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#72#72	Qwen3.6 27Bmedium	6.8	Qwen	$0.229	52.13s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 61.4% 不稳定测试 5 输出令牌 8,680 推理令牌 96,890 响应时间（平均） 52.13s 响应时间（总计） 990.48s 响应时间（最大） 168.22s 答案错误: 6 无答案: 2 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 8.3 编程 : 10.0 综合 : 7.0 数据解析与提取 : 3.5 领域专项 : 2.9 通用智能 : 6.5 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#73#73	Hunter Alphamedium	6.7	OpenRouter	$0.000	10.33s
查看模型卡片总测试数 18 错误测试数 10 可靠性不适用尝试通过率 64.8% 不稳定测试 6 输出令牌 4,724 推理令牌 17,921 响应时间（平均） 10.33s 响应时间（总计） 175.60s 响应时间（最大） 30.53s 答案错误: 4 未遵循指令: 2 超时: 2 API 错误: 1 额外格式: 1 反AI技巧 : 7.3 编程 : 3.0 综合 : 4.7 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 7.0 指令遵循 : 9.9 谜题求解 : 6.1 工具调用 : 10.0
#74#74	GPT-5.5none	6.7	OpenAI	$0.197	1.99s
查看模型卡片总测试数 19 错误测试数 9 可靠性 10.0 尝试通过率 59.7% 不稳定测试 3 输出令牌 1,928 推理令牌 0 响应时间（平均） 1.99s 响应时间（总计） 37.87s 响应时间（最大） 5.56s 答案错误: 9 反AI技巧 : 6.9 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 6.2 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#75#75	Gemini 3.1 Flash Litenone	6.7	Google	$0.012	1.11s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 57.9% 不稳定测试 4 输出令牌 2,454 推理令牌 0 响应时间（平均） 1.11s 响应时间（总计） 21.13s 响应时间（最大） 2.97s 答案错误: 9 未遵循指令: 1 反AI技巧 : 7.5 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 6.3 工具调用 : 10.0 常识问答 : 3.0
#76#76	Grok 4.20 Multi Agent Betamedium	6.6	X AI	$5.074	9.80s
查看模型卡片总测试数 18 错误测试数 10 可靠性不适用尝试通过率 63.0% 不稳定测试 6 输出令牌 299,034 推理令牌 309,670 响应时间（平均） 9.80s 响应时间（总计） 156.75s 响应时间（最大） 35.28s 答案错误: 4 API 错误: 2 额外格式: 2 未遵循指令: 2 反AI技巧 : 6.9 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.8 指令遵循 : 9.8 谜题求解 : 7.2 工具调用 : 3.0
#77#77	Laguna Xs.2medium	6.6	Poolside	$0.000	6.74s
查看模型卡片总测试数 19 错误测试数 9 可靠性 10.0 尝试通过率 64.5% 不稳定测试 6 输出令牌 54,284 推理令牌 0 响应时间（平均） 6.74s 响应时间（总计） 101.08s 响应时间（最大） 29.11s 答案错误: 6 无答案: 2 无效工具调用: 1 反AI技巧 : 8.2 编程 : 6.3 综合 : 3.0 数据解析与提取 : 7.1 领域专项 : 4.1 通用智能 : 0.0 指令遵循 : 10.0 谜题求解 : 6.5 工具调用 : 4.7 常识问答 : 0.0
#78#78	Qwen3.5 Plus 2026-02-15none	6.5	Qwen	$0.017	2.49s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 50.9% 不稳定测试 2 输出令牌 2,472 推理令牌 0 响应时间（平均） 2.49s 响应时间（总计） 32.33s 响应时间（最大） 6.65s 答案错误: 10 反AI技巧 : 4.8 编程 : 6.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#79#79	Grok 4.1 Fastmedium	6.5	X AI	$0.058	24.01s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 61.4% 不稳定测试 6 输出令牌 2,025 推理令牌 96,679 响应时间（平均） 24.01s 响应时间（总计） 288.18s 响应时间（最大） 121.79s 未遵循指令: 4 答案错误: 4 无答案: 1 超时: 1 反AI技巧 : 8.7 编程 : 2.3 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.8 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 2.8 常识问答 : 3.0
#80#80	GLM 5none	6.5	Z.ai	$0.020	4.18s
查看模型卡片总测试数 19 错误测试数 10 可靠性 10.0 尝试通过率 49.1% 不稳定测试 1 输出令牌 1,972 推理令牌 0 响应时间（平均） 4.18s 响应时间（总计） 50.12s 响应时间（最大） 11.07s 答案错误: 10 反AI技巧 : 4.8 编程 : 5.6 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#81#81	MiMo-V2-Omninone	6.3	Xiaomi	$0.020	2.37s
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 43.9% 不稳定测试 1 输出令牌 2,254 推理令牌 0 响应时间（平均） 2.37s 响应时间（总计） 45.03s 响应时间（最大） 6.81s 答案错误: 10 未遵循指令: 1 反AI技巧 : 3.6 编程 : 6.6 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.1 指令遵循 : 6.5 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#82#82	Mercury 2medium	6.3	Inception	$0.050	2.23s
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 50.9% 不稳定测试 3 输出令牌 3,994 推理令牌 52,081 响应时间（平均） 2.23s 响应时间（总计） 40.10s 响应时间（最大） 14.63s 答案错误: 8 未遵循指令: 3 反AI技巧 : 6.9 编程 : 10.0 综合 : 10.0 数据解析与提取 : 7.3 领域专项 : 2.9 通用智能 : 4.8 指令遵循 : 10.0 谜题求解 : 3.8 工具调用 : 10.0 常识问答 : 3.0
#83#83	Gemini 2.5 Flashnone	6.3	Google	$0.013	916ms
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 49.1% 不稳定测试 2 输出令牌 1,738 推理令牌 0 响应时间（平均） 916ms 响应时间（总计） 17.41s 响应时间（最大） 4.39s 答案错误: 10 未遵循指令: 1 反AI技巧 : 3.0 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 5.0 指令遵循 : 9.8 谜题求解 : 6.5 工具调用 : 10.0 常识问答 : 3.0
#84#84	Gemma 4 26B A4Bnone	6.3	Google	$0.005	6.28s
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 49.1% 不稳定测试 2 输出令牌 1,796 推理令牌 0 响应时间（平均） 6.28s 响应时间（总计） 119.39s 响应时间（最大） 57.10s 答案错误: 8 未遵循指令: 2 超时: 1 反AI技巧 : 8.3 编程 : 4.7 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.0 指令遵循 : 6.3 谜题求解 : 6.2 工具调用 : 10.0 常识问答 : 3.0
#85#85	GPT-5 Nanomedium	6.2	OpenAI	$0.069	42.13s
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 57.9% 不稳定测试 7 输出令牌 5,214 推理令牌 162,432 响应时间（平均） 42.13s 响应时间（总计） 505.59s 响应时间（最大） 204.02s 答案错误: 8 未遵循指令: 2 超时: 1 反AI技巧 : 6.5 编程 : 6.7 综合 : 10.0 数据解析与提取 : 3.7 领域专项 : 5.2 通用智能 : 4.1 指令遵循 : 9.8 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#86#86	DeepSeek V4 Pronone	6.2	DeepSeek	$0.044	14.09s
查看模型卡片总测试数 19 错误测试数 11 可靠性 8.0 尝试通过率 50.9% 不稳定测试 3 输出令牌 5,330 推理令牌 0 响应时间（平均） 14.09s 响应时间（总计） 267.72s 响应时间（最大） 58.65s 答案错误: 8 未遵循指令: 2 额外格式: 1 反AI技巧 : 3.5 编程 : 7.1 综合 : 9.5 数据解析与提取 : 8.8 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 6.3 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#87#87	Nemotron 3 Supermedium	6.1	NVIDIA	$0.001	18.72s
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 47.4% 不稳定测试 3 输出令牌 14,098 推理令牌 29,580 响应时间（平均） 18.72s 响应时间（总计） 318.29s 响应时间（最大） 87.80s 答案错误: 5 未遵循指令: 3 API 错误: 1 无答案: 1 超时: 1 反AI技巧 : 8.3 编程 : 3.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 4.1 指令遵循 : 7.2 谜题求解 : 3.1 工具调用 : 10.0 常识问答 : 3.0
#88#88	Seed-2.0-Litenone	6.0	Bytedance Seed	$0.017	2.50s
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 52.6% 不稳定测试 5 输出令牌 3,140 推理令牌 0 响应时间（平均） 2.50s 响应时间（总计） 47.42s 响应时间（最大） 6.70s 答案错误: 11 反AI技巧 : 3.0 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 5.2 工具调用 : 10.0 常识问答 : 3.0
#89#89	GLM 5V Turbonone	6.0	Z.ai	$0.044	3.06s
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 42.1% 不稳定测试 0 输出令牌 1,739 推理令牌 0 响应时间（平均） 3.06s 响应时间（总计） 58.10s 响应时间（最大） 6.51s 答案错误: 9 未遵循指令: 2 反AI技巧 : 4.8 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.6 指令遵循 : 6.5 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0
#90#90	Owl Alphamedium	6.0	Openrouter	$0.000	10.58s
查看模型卡片总测试数 19 错误测试数 11 可靠性 10.0 尝试通过率 43.9% 不稳定测试 1 输出令牌 1,613 推理令牌 0 响应时间（平均） 10.58s 响应时间（总计） 201.03s 响应时间（最大） 58.63s 答案错误: 9 未遵循指令: 2 反AI技巧 : 4.8 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 6.3 谜题求解 : 5.3 工具调用 : 10.0 常识问答 : 3.0

快速对比

Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro Previewmedium Gemini 3 Flash PreviewmediumvsClaude Opus 4.7medium Gemini 3 Flash PreviewmediumvsGPT-5.5medium Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewmediumvsQwen3.6 Max Previewmedium Gemini 3 Flash PreviewmediumvsRing 2.6 1tmedium免费可用 Gemini 3.1 Pro PreviewmediumvsClaude Opus 4.7medium Claude Opus 4.7mediumvsGPT-5.5medium GPT-5.5mediumvsGPT-5.5low GPT-5.5lowvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsQwen3.6 Max Previewmedium

AI 基准排行榜

筛选模型

快速对比