AI BENCHY

AI 基准排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-05-10 已评估模型: 144

144/144

排名	模型	分数	公司	总成本	响应时间（平均）
#1🥇 #1	Gemini 3 Flash Previewmedium	10.0	Google	$0.328	11.43s
查看模型卡片总测试数 19 错误测试数 0 可靠性 10.0 尝试通过率 100.0% 不稳定测试 0 输出令牌 1,985 推理令牌 102,122 响应时间（平均） 11.43s 响应时间（总计） 217.10s 响应时间（最大） 74.66s 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 10.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#2🥈 #2	Gemini 3.1 Pro Previewmedium	9.6	Google	$0.594	15.15s
查看模型卡片总测试数 19 错误测试数 1 可靠性 10.0 尝试通过率 94.7% 不稳定测试 0 输出令牌 1,944 推理令牌 41,839 响应时间（平均） 15.15s 响应时间（总计） 181.78s 响应时间（最大） 40.61s 答案错误: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 9.5 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#3🥉 #3	Claude Opus 4.7medium	8.9	Anthropic	$0.449	3.46s
查看模型卡片总测试数 19 错误测试数 3 可靠性 10.0 尝试通过率 84.2% 不稳定测试 0 输出令牌 5,399 推理令牌 1,341 响应时间（平均） 3.46s 响应时间（总计） 62.29s 响应时间（最大） 21.45s 答案错误: 2 超时: 1 反AI技巧 : 8.3 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#4#4	GPT-5.5medium	8.9	OpenAI	$2.939	33.02s
查看模型卡片总测试数 19 错误测试数 3 可靠性 10.0 尝试通过率 87.7% 不稳定测试 2 输出令牌 1,950 推理令牌 91,386 响应时间（平均） 33.02s 响应时间（总计） 627.45s 响应时间（最大） 332.10s 答案错误: 3 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 2.8
#5#5	Claude Opus 4.7none	8.9	Anthropic	$0.507	3.04s
查看模型卡片总测试数 19 错误测试数 3 可靠性 10.0 尝试通过率 84.2% 不稳定测试 0 输出令牌 6,329 推理令牌 0 响应时间（平均） 3.04s 响应时间（总计） 57.79s 响应时间（最大） 18.27s 答案错误: 3 反AI技巧 : 8.3 编程 : 10.0 综合 : 9.5 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#6#6	GPT-5.5low	8.9	OpenAI	$0.706	8.80s
查看模型卡片总测试数 19 错误测试数 3 可靠性 10.0 尝试通过率 84.2% 不稳定测试 0 输出令牌 2,008 推理令牌 16,914 响应时间（平均） 8.80s 响应时间（总计） 167.26s 响应时间（最大） 56.19s 答案错误: 3 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#7#7	Gemini 3 Flash Previewlow	8.8	Google	$0.093	5.84s
查看模型卡片总测试数 19 错误测试数 3 可靠性 10.0 尝试通过率 86.0% 不稳定测试 1 输出令牌 2,027 推理令牌 23,906 响应时间（平均） 5.84s 响应时间（总计） 110.87s 响应时间（最大） 14.72s 答案错误: 3 反AI技巧 : 10.0 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#8#8	Gemini 3.1 Flash Lite Previewhigh	8.6	Google	$2.310	68.83s
查看模型卡片总测试数 16 错误测试数 3 可靠性不适用尝试通过率 81.3% 不稳定测试 0 输出令牌 1,283 推理令牌 1,533,310 响应时间（平均） 68.83s 响应时间（总计） 1101.32s 响应时间（最大） 280.52s 答案错误: 3 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0
#9#9	Qwen3.6 Max Previewmedium	8.5	Qwen	$0.872	48.96s
查看模型卡片总测试数 19 错误测试数 4 可靠性 10.0 尝试通过率 80.7% 不稳定测试 1 输出令牌 2,186 推理令牌 105,156 响应时间（平均） 48.96s 响应时间（总计） 930.20s 响应时间（最大） 186.74s 答案错误: 4 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#10#10	Gemini 3 PRO Previewmedium	8.4	Google	$0.197	9.06s
查看模型卡片总测试数 19 错误测试数 4 可靠性不适用尝试通过率 77.8% 不稳定测试 0 输出令牌 1,508 推理令牌 10,084 响应时间（平均） 9.06s 响应时间（总计） 90.58s 响应时间（最大） 26.24s 答案错误: 3 API 错误: 1 反AI技巧 : 10.0 编程 : 3.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 0.0
#11#11	Seed-2.0-Litemedium	8.3	Bytedance Seed	$0.125	31.32s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 79.0% 不稳定测试 3 输出令牌 3,266 推理令牌 54,082 响应时间（平均） 31.32s 响应时间（总计） 595.04s 响应时间（最大） 168.71s 答案错误: 4 未遵循指令: 2 反AI技巧 : 8.3 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 6.7 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0 常识问答 : 3.0
#12#12	Qwen3.5 Plus 2026-02-15medium	8.2	Qwen	$0.247	51.33s
查看模型卡片总测试数 19 错误测试数 5 可靠性 10.0 尝试通过率 79.0% 不稳定测试 2 输出令牌 2,145 推理令牌 129,019 响应时间（平均） 51.33s 响应时间（总计） 616.01s 响应时间（最大） 120.91s 答案错误: 3 超时: 2 反AI技巧 : 8.2 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#13#13	GPT-5.3-Codexmedium	8.2	OpenAI	$0.598	15.33s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 80.7% 不稳定测试 4 输出令牌 2,309 推理令牌 36,880 响应时间（平均） 15.33s 响应时间（总计） 291.34s 响应时间（最大） 100.93s 答案错误: 4 未遵循指令: 2 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.6 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0 常识问答 : 2.8
#14#14	Gemma 4 31Bmedium	8.2	Google	$0.023	28.72s
查看模型卡片总测试数 19 错误测试数 5 可靠性 6.7 尝试通过率 77.2% 不稳定测试 1 输出令牌 14,426 推理令牌 37,964 响应时间（平均） 28.72s 响应时间（总计） 488.27s 响应时间（最大） 90.14s API 错误: 2 答案错误: 2 超时: 1 反AI技巧 : 10.0 编程 : 4.7 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 9.9 工具调用 : 3.0 常识问答 : 3.0
#15#15	Qwen3.6 Plus Previewmedium	8.2	Qwen	$0.000	15.25s
查看模型卡片总测试数 19 错误测试数 3 可靠性不适用尝试通过率 75.0% 不稳定测试 0 输出令牌 1,153 推理令牌 62,197 响应时间（平均） 15.25s 响应时间（总计） 182.96s 响应时间（最大） 43.55s 答案错误: 3 反AI技巧 : 10.0 编程 : 0.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 0.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 0.0
#16#16	Grok 4.20 Betamedium	8.2	X AI	$0.633	9.81s
查看模型卡片总测试数 18 错误测试数 5 可靠性不适用尝试通过率 79.6% 不稳定测试 2 输出令牌 1,568 推理令牌 91,909 响应时间（平均） 9.81s 响应时间（总计） 176.62s 响应时间（最大） 31.36s 答案错误: 4 未遵循指令: 1 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 8.2 工具调用 : 3.0
#17#17	Qwen3.5-27Bmedium	8.1	Qwen	$0.534	54.71s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 77.2% 不稳定测试 3 输出令牌 2,531 推理令牌 266,183 响应时间（平均） 54.71s 响应时间（总计） 1039.57s 响应时间（最大） 163.96s 未遵循指令: 2 答案错误: 2 额外格式: 1 超时: 1 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#18#18	MiMo-V2.5-Promedium	8.1	Xiaomi	$0.200	16.23s
查看模型卡片总测试数 18 错误测试数 6 可靠性 10.0 尝试通过率 74.1% 不稳定测试 2 输出令牌 2,790 推理令牌 52,001 响应时间（平均） 16.23s 响应时间（总计） 292.10s 响应时间（最大） 84.22s 额外格式: 2 未遵循指令: 2 答案错误: 2 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 9.9 谜题求解 : 6.7 工具调用 : 10.0
#19#19	GLM 5medium	8.1	Z.ai	$0.180	27.34s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 80.7% 不稳定测试 4 输出令牌 20,564 推理令牌 70,787 响应时间（平均） 27.34s 响应时间（总计） 300.78s 响应时间（最大） 79.09s 答案错误: 3 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 7.1 领域专项 : 3.5 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#20#20	GLM 5 Turbomedium	8.1	Z.ai	$0.187	18.85s
查看模型卡片总测试数 19 错误测试数 6 可靠性 6.7 尝试通过率 77.2% 不稳定测试 4 输出令牌 12,217 推理令牌 40,252 响应时间（平均） 18.85s 响应时间（总计） 358.15s 响应时间（最大） 194.23s 答案错误: 4 未遵循指令: 1 超时: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.7 工具调用 : 10.0 常识问答 : 3.0
#21#21	Qwen3.6 35B A3Bmedium	8.0	Qwen	$0.116	13.22s
查看模型卡片总测试数 19 错误测试数 5 可靠性 9.8 尝试通过率 74.5% 不稳定测试 2 输出令牌 15,018 推理令牌 108,331 响应时间（平均） 13.22s 响应时间（总计） 224.66s 响应时间（最大） 45.02s 答案错误: 4 未遵循指令: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 0.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 10.0 谜题求解 : 7.9 工具调用 : 0.0 常识问答 : 3.0
#22#22	Hy3 previewhigh	8.0	Tencent	$0.000	56.77s
查看模型卡片总测试数 19 错误测试数 4 可靠性 10.0 尝试通过率 77.1% 不稳定测试 1 输出令牌 216,503 推理令牌 0 响应时间（平均） 56.77s 响应时间（总计） 851.49s 响应时间（最大） 149.94s 答案错误: 3 API 错误: 1 反AI技巧 : 8.9 编程 : 10.0 综合 : 10.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 0.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#23#23	Gemini 3.1 Flash Lite Previewmedium	8.0	Google	$0.058	3.68s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 68.4% 不稳定测试 0 输出令牌 2,180 推理令牌 30,831 响应时间（平均） 3.68s 响应时间（总计） 69.99s 响应时间（最大） 14.93s 答案错误: 5 未遵循指令: 1 反AI技巧 : 9.1 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#24#24	Grok 4.3medium	8.0	X AI	$0.550	48.41s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 77.2% 不稳定测试 3 输出令牌 1,237 推理令牌 200,033 响应时间（平均） 48.41s 响应时间（总计） 919.73s 响应时间（最大） 216.69s 答案错误: 4 未遵循指令: 2 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.4 指令遵循 : 9.8 谜题求解 : 5.9 工具调用 : 10.0 常识问答 : 3.0
#25#25	Gemini 2.5 Flashmedium	7.9	Google	$0.322	11.63s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 71.9% 不稳定测试 1 输出令牌 1,909 推理令牌 123,192 响应时间（平均） 11.63s 响应时间（总计） 220.88s 响应时间（最大） 95.48s 答案错误: 5 未遵循指令: 1 反AI技巧 : 8.4 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.8 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#26#26	GPT-5.4medium	7.9	OpenAI	$0.861	18.38s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 75.4% 不稳定测试 3 输出令牌 2,199 推理令牌 50,553 响应时间（平均） 18.38s 响应时间（总计） 349.21s 响应时间（最大） 100.41s 答案错误: 4 未遵循指令: 2 反AI技巧 : 8.3 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#27#27	Gemini 3.1 Flash Litemedium	7.9	Google	$0.059	3.14s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 71.9% 不稳定测试 2 输出令牌 2,224 推理令牌 32,034 响应时间（平均） 3.14s 响应时间（总计） 59.62s 响应时间（最大） 10.87s 答案错误: 5 未遵循指令: 1 反AI技巧 : 9.1 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.6 工具调用 : 10.0 常识问答 : 3.0
#28#28	Qwen3.6 Plusmedium	7.9	Qwen	$0.016	17.06s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 70.2% 不稳定测试 1 输出令牌 1,784 推理令牌 91,543 响应时间（平均） 17.06s 响应时间（总计） 307.07s 响应时间（最大） 47.51s 答案错误: 4 API 错误: 1 未遵循指令: 1 反AI技巧 : 10.0 编程 : 3.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#29#29	Gemini 3 Flash Previewnone	7.9	Google	$0.021	1.61s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 73.7% 不稳定测试 2 输出令牌 1,855 推理令牌 0 响应时间（平均） 1.61s 响应时间（总计） 19.26s 响应时间（最大） 3.56s 答案错误: 6 反AI技巧 : 8.3 编程 : 10.0 综合 : 4.7 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#30#30	Gemini 3.1 Flash Lite Previewlow	7.9	Google	$0.023	3.12s
查看模型卡片总测试数 19 错误测试数 6 可靠性 10.0 尝试通过率 68.4% 不稳定测试 0 输出令牌 2,256 推理令牌 8,478 响应时间（平均） 3.12s 响应时间（总计） 59.34s 响应时间（最大） 11.91s 答案错误: 5 未遵循指令: 1 反AI技巧 : 8.3 编程 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0

快速对比

Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro Previewmedium Gemini 3 Flash PreviewmediumvsClaude Opus 4.7medium Gemini 3 Flash PreviewmediumvsGPT-5.5medium Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewmediumvsQwen3.6 Max Previewmedium Gemini 3 Flash PreviewmediumvsRing 2.6 1tmedium免费可用 Gemini 3.1 Pro PreviewmediumvsClaude Opus 4.7medium Claude Opus 4.7mediumvsGPT-5.5medium GPT-5.5mediumvsGPT-5.5low GPT-5.5lowvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsQwen3.6 Max Previewmedium

AI 基准排行榜

筛选模型

快速对比