AI BENCHY

AI 基准排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-04 已评估模型: 163

163/163

排名	模型	分数	公司	总成本	响应时间（平均）
#1🥇 #1	Gemini 3 Flash Previewmedium	9.8	Google	$0.667	18.64s
查看模型卡片总测试数 21 错误测试数 1 可靠性 10.0 尝试通过率 98.4% 不稳定测试 1 输入令牌 37,017 输出令牌 2,006 推理令牌 214,153 响应时间（平均） 18.64s 响应时间（总计） 391.35s 响应时间（最大） 117.26s 答案错误: 1 反AI技巧 : 10.0 编程 : 8.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 10.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#2🥈 #2	Gemini 3.5 Flashhigh	9.6	Google	$1.115	8.84s
查看模型卡片总测试数 21 错误测试数 1 可靠性 10.0 尝试通过率 96.8% 不稳定测试 1 输入令牌 37,594 输出令牌 1,975 推理令牌 115,638 响应时间（平均） 8.84s 响应时间（总计） 185.57s 响应时间（最大） 34.82s 答案错误: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 9.8 常识问答 : 10.0
#3🥉 #3	Gemini 3.5 Flashlow	9.4	Google	$0.349	3.27s
查看模型卡片总测试数 21 错误测试数 2 可靠性 10.0 尝试通过率 90.5% 不稳定测试 0 输入令牌 36,938 输出令牌 2,033 推理令牌 30,519 响应时间（平均） 3.27s 响应时间（总计） 68.65s 响应时间（最大） 9.05s 答案错误: 2 反AI技巧 : 10.0 编程 : 7.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#4#4	Gemini 3.1 Pro Previewmedium	9.4	Google	$1.054	20.14s
查看模型卡片总测试数 21 错误测试数 2 可靠性 10.0 尝试通过率 90.5% 不稳定测试 0 输入令牌 41,617 输出令牌 1,977 推理令牌 78,896 响应时间（平均） 20.14s 响应时间（总计） 281.92s 响应时间（最大） 88.68s 答案错误: 2 反AI技巧 : 10.0 编程 : 7.9 综合 : 9.5 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#5#5	Qwen3.7 Maxmedium	9.1	Qwen	$0.523 ↓	16.02s
查看模型卡片总测试数 21 错误测试数 3 可靠性 10.0 尝试通过率 88.9% 不稳定测试 1 输入令牌 42,360 输出令牌 2,129 推理令牌 122,959 响应时间（平均） 16.02s 响应时间（总计） 336.51s 响应时间（最大） 59.98s 答案错误: 3 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#6#6	GPT-5.5low	9.0	OpenAI	$0.907	9.76s
查看模型卡片总测试数 21 错误测试数 3 可靠性 10.0 尝试通过率 85.7% 不稳定测试 0 输入令牌 34,209 输出令牌 2,046 推理令牌 22,460 响应时间（平均） 9.76s 响应时间（总计） 204.92s 响应时间（最大） 56.19s 答案错误: 3 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#7#7	Gemini 3.5 Flashmedium	9.0	Google	$0.582	4.94s
查看模型卡片总测试数 21 错误测试数 3 可靠性 10.0 尝试通过率 87.3% 不稳定测试 1 输入令牌 36,936 输出令牌 2,001 推理令牌 56,408 响应时间（平均） 4.94s 响应时间（总计） 103.79s 响应时间（最大） 18.07s 答案错误: 2 未遵循指令: 1 反AI技巧 : 10.0 编程 : 7.9 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 10.0
#8#8	Claude Opus 4.7none	8.9	Anthropic	$0.505	3.02s
查看模型卡片总测试数 19 错误测试数 3 可靠性 10.0 尝试通过率 84.2% 不稳定测试 0 输入令牌 69,576 输出令牌 6,265 推理令牌 0 响应时间（平均） 3.02s 响应时间（总计） 57.44s 响应时间（最大） 18.27s 答案错误: 3 反AI技巧 : 8.3 编程 : 10.0 综合 : 9.5 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#9#9	GPT-5.5medium	8.8	OpenAI	$3.679	37.98s
查看模型卡片总测试数 21 错误测试数 4 可靠性 10.0 尝试通过率 87.3% 不稳定测试 3 输入令牌 34,212 输出令牌 1,985 推理令牌 114,925 响应时间（平均） 37.98s 响应时间（总计） 797.60s 响应时间（最大） 332.10s 答案错误: 4 反AI技巧 : 10.0 编程 : 8.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 2.8
#10#10	Claude Opus 4.8medium	8.7	Anthropic	$1.107	9.66s
查看模型卡片总测试数 21 错误测试数 4 可靠性 10.0 尝试通过率 84.1% 不稳定测试 1 输入令牌 61,007 输出令牌 26,495 推理令牌 5,901 响应时间（平均） 9.66s 响应时间（总计） 202.89s 响应时间（最大） 38.03s 答案错误: 3 无答案: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 9.8 数据解析与提取 : 7.1 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#11#11	Claude Opus 4.7medium	8.7	Anthropic	$0.679	4.73s
查看模型卡片总测试数 21 错误测试数 4 可靠性 10.0 尝试通过率 82.5% 不稳定测试 1 输入令牌 65,406 输出令牌 11,858 推理令牌 2,198 响应时间（平均） 4.73s 响应时间（总计） 94.51s 响应时间（最大） 23.18s 答案错误: 3 超时: 1 反AI技巧 : 8.3 编程 : 7.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#14#14	Qwen3.6 Max Previewmedium	8.5	Qwen	$0.960 ↓	59.63s
查看模型卡片总测试数 21 错误测试数 5 可靠性 10.0 尝试通过率 81.0% 不稳定测试 2 输入令牌 42,362 输出令牌 2,273 推理令牌 144,367 响应时间（平均） 59.63s 响应时间（总计） 1252.17s 响应时间（最大） 238.07s 答案错误: 5 反AI技巧 : 10.0 编程 : 8.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#15#15	GPT-5.3-Codexmedium	8.4	OpenAI	$0.740	16.22s
查看模型卡片总测试数 21 错误测试数 6 可靠性 10.0 尝试通过率 82.5% 不稳定测试 4 输入令牌 34,299 输出令牌 2,357 推理令牌 46,189 响应时间（平均） 16.22s 响应时间（总计） 340.67s 响应时间（最大） 100.93s 答案错误: 4 未遵循指令: 2 反AI技巧 : 8.7 编程 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.6 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0 常识问答 : 2.8
#16#16	Gemini 3 Flash Previewlow	8.4	Google	$0.111	5.76s
查看模型卡片总测试数 21 错误测试数 5 可靠性 10.0 尝试通过率 79.4% 不稳定测试 2 输入令牌 36,769 输出令牌 2,076 推理令牌 28,518 响应时间（平均） 5.76s 响应时间（总计） 120.93s 响应时间（最大） 14.72s 答案错误: 5 反AI技巧 : 10.0 编程 : 5.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 10.0
#17#17	GLM 5medium	8.3	Z.ai	$0.228 ↓	33.54s
查看模型卡片总测试数 21 错误测试数 6 可靠性 10.0 尝试通过率 82.5% 不稳定测试 4 输入令牌 35,224 输出令牌 21,570 推理令牌 102,996 响应时间（平均） 33.54s 响应时间（总计） 435.99s 响应时间（最大） 99.85s 答案错误: 3 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 10.0 综合 : 10.0 数据解析与提取 : 7.1 领域专项 : 3.5 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#18#18	Qwen3.7 Plusmedium	8.2	Qwen	$0.221	38.95s
查看模型卡片总测试数 21 错误测试数 6 可靠性 10.0 尝试通过率 77.8% 不稳定测试 2 输入令牌 40,939 输出令牌 2,125 推理令牌 125,754 响应时间（平均） 38.95s 响应时间（总计） 817.85s 响应时间（最大） 178.04s 答案错误: 5 超时: 1 反AI技巧 : 10.0 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#19#19	Seed-2.0-Litemedium	8.2	Bytedance Seed	$0.175	47.07s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 76.2% 不稳定测试 3 输入令牌 46,740 输出令牌 3,230 推理令牌 78,406 响应时间（平均） 47.07s 响应时间（总计） 988.37s 响应时间（最大） 254.92s 答案错误: 5 未遵循指令: 2 反AI技巧 : 8.3 编程 : 8.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 6.7 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0 常识问答 : 3.0
#20#20	Gemini 3.5 Flashnone	8.1	Google	$1.079	9.93s
查看模型卡片总测试数 21 错误测试数 6 可靠性 10.0 尝试通过率 77.8% 不稳定测试 3 输入令牌 13,843 输出令牌 117,518 推理令牌 0 响应时间（平均） 9.93s 响应时间（总计） 178.68s 响应时间（最大） 64.36s API 错误: 3 答案错误: 3 反AI技巧 : 10.0 编程 : 8.8 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 7.6 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 3.0 常识问答 : 2.8
#21#21	GPT-5.4medium	8.0	OpenAI	$1.210	22.35s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 76.2% 不稳定测试 4 输入令牌 34,108 输出令牌 2,242 推理令牌 72,707 响应时间（平均） 22.35s 响应时间（总计） 469.29s 响应时间（最大） 100.41s 答案错误: 5 未遵循指令: 2 反AI技巧 : 8.3 编程 : 8.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#23#23	GLM 5 Turbomedium	8.0	Z.ai	$0.323 ↑	23.00s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 74.6% 不稳定测试 4 输入令牌 35,593 输出令牌 12,245 推理令牌 62,277 响应时间（平均） 23.00s 响应时间（总计） 482.97s 响应时间（最大） 194.23s 答案错误: 4 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 编程 : 8.2 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.7 工具调用 : 10.0 常识问答 : 3.0
#24#24	GPT-5.2 Chatnone	7.9	OpenAI	$0.393	7.13s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 74.6% 不稳定测试 3 输入令牌 34,212 输出令牌 23,744 推理令牌 0 响应时间（平均） 7.13s 响应时间（总计） 149.69s 响应时间（最大） 38.52s 答案错误: 6 未遵循指令: 1 反AI技巧 : 8.7 编程 : 8.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#25#25	Qwen3.5 Plus 2026-02-15medium	7.9	Qwen	$0.310 ↓	73.79s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 73.0% 不稳定测试 3 输入令牌 40,918 输出令牌 2,159 推理令牌 189,604 响应时间（平均） 73.79s 响应时间（总计） 1033.07s 响应时间（最大） 266.69s 答案错误: 4 超时: 2 API 错误: 1 反AI技巧 : 8.2 编程 : 6.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#26#26	Qwen3.6 Plusmedium	7.9	Qwen	$0.294 ↑	30.70s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 69.8% 不稳定测试 2 输入令牌 41,565 输出令牌 1,853 推理令牌 141,973 响应时间（平均） 30.70s 响应时间（总计） 613.99s 响应时间（最大） 201.68s 答案错误: 5 API 错误: 1 未遵循指令: 1 反AI技巧 : 10.0 编程 : 6.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#27#27	Gemma 4 31Bmedium	7.8	Google	$0.034 ↓	56.55s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 69.8% 不稳定测试 1 输入令牌 17,957 输出令牌 22,356 推理令牌 65,726 响应时间（平均） 56.55s 响应时间（总计） 1074.41s 响应时间（最大） 437.40s API 错误: 2 超时: 2 答案错误: 2 无答案: 1 反AI技巧 : 10.0 编程 : 4.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 9.9 工具调用 : 3.0 常识问答 : 3.0
#28#28	Gemini 2.5 Flashmedium	7.8	Google	$0.379	15.49s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 69.8% 不稳定测试 1 输入令牌 34,476 输出令牌 1,930 推理令牌 145,145 响应时间（平均） 15.49s 响应时间（总计） 325.39s 响应时间（最大） 95.48s 答案错误: 6 未遵循指令: 1 反AI技巧 : 8.4 编程 : 7.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.8 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0
#29#29	Qwen3.5-122B-A10Bmedium	7.8	Qwen	$0.588 ↓	42.49s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 73.0% 不稳定测试 3 输入令牌 41,832 输出令牌 26,187 推理令牌 251,028 响应时间（平均） 42.49s 响应时间（总计） 892.30s 响应时间（最大） 168.16s 答案错误: 5 超时: 2 反AI技巧 : 10.0 编程 : 6.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.4 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#30#30	Qwen3.5-27Bmedium	7.8	Qwen	$0.536 ↓	68.39s
查看模型卡片总测试数 21 错误测试数 8 可靠性 10.0 尝试通过率 73.0% 不稳定测试 4 输入令牌 42,164 输出令牌 8,534 推理令牌 329,289 响应时间（平均） 68.39s 响应时间（总计） 1436.24s 响应时间（最大） 234.36s 答案错误: 4 未遵循指令: 2 额外格式: 1 超时: 1 反AI技巧 : 8.7 编程 : 6.2 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#31#31	DeepSeek V4 Flashhigh	7.7	DeepSeek	$0.029 ↓	45.85s
查看模型卡片总测试数 21 错误测试数 8 可靠性 10.0 尝试通过率 74.6% 不稳定测试 4 输入令牌 39,745 输出令牌 10,310 推理令牌 123,501 响应时间（平均） 45.85s 响应时间（总计） 962.79s 响应时间（最大） 218.13s 答案错误: 6 未遵循指令: 2 反AI技巧 : 8.3 编程 : 7.8 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0 常识问答 : 3.0
#32#32	Gemini 3.5 Flashminimal	7.7	Google	$0.108	1.57s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 68.3% 不稳定测试 1 输入令牌 39,847 输出令牌 5,277 推理令牌 0 响应时间（平均） 1.57s 响应时间（总计） 33.02s 响应时间（最大） 5.51s 答案错误: 5 未遵循指令: 1 无效工具调用: 1 反AI技巧 : 6.5 编程 : 5.6 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 10.0 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 10.0 工具调用 : 10.0 常识问答 : 3.0
#33#33	Hy3 previewmedium	7.7	Tencent	$0.018 ↕	16.28s
查看模型卡片总测试数 21 错误测试数 7 可靠性 10.0 尝试通过率 66.7% 不稳定测试 0 输入令牌 27,030 输出令牌 73,544 推理令牌 0 响应时间（平均） 16.28s 响应时间（总计） 293.12s 响应时间（最大） 46.04s API 错误: 3 答案错误: 3 未遵循指令: 1 反AI技巧 : 10.0 编程 : 5.3 综合 : 10.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0 常识问答 : 3.0

1 2 3 4 5 6

→

快速对比

AI 基准排行榜

筛选模型

快速对比