AI BENCHY

AI 基准排行榜

Name: AI BENCHY 模型基准结果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-03-30 已评估模型: 78

搜索

78/80

排名	模型	分数	公司	总成本	响应时间（平均）
#1🥇 #1	Gemini 3 Flash Previewmedium	10.0	Google	$0.166	11.39s
查看模型卡片总测试数: 17 错误测试数: 0 尝试通过率: 100.0% 不稳定测试: 0 输出令牌: 1,640 推理令牌: 48,270 响应时间：平均 11.39s · 总计 113.86s · 最大 50.16s 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 10.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0
#2🥈 #2	Gemini 3.1 Pro Previewmedium	9.6	Google	$0.522	15.56s
查看模型卡片总测试数: 17 错误测试数: 1 尝试通过率: 94.1% 不稳定测试: 0 输出令牌: 1,527 推理令牌: 36,341 响应时间：平均 15.56s · 总计 155.64s · 最大 40.61s 答案错误: 1 反AI技巧 : 10.0 综合 : 9.5 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0
#3🥉 #3	Gemini 3 Flash Previewlow	8.7	Google	$0.081	5.95s
查看模型卡片总测试数: 17 错误测试数: 3 尝试通过率: 84.3% 不稳定测试: 1 输出令牌: 1,592 推理令牌: 20,556 响应时间：平均 5.95s · 总计 101.19s · 最大 14.72s 答案错误: 3 反AI技巧 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 10.0 工具调用 : 10.0
#4#4	Gemini 3 PRO Previewmedium	8.7	Google	$0.197	9.06s
查看模型卡片总测试数: 17 错误测试数: 3 尝试通过率: 82.4% 不稳定测试: 0 输出令牌: 1,508 推理令牌: 10,084 响应时间：平均 9.06s · 总计 90.58s · 最大 26.24s 答案错误: 3 反AI技巧 : 10.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.8 谜题求解 : 10.0 工具调用 : 10.0
#5#5	Seed-2.0-Litemedium	8.5	Bytedance Seed	$0.105	27.78s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 82.4% 不稳定测试: 3 输出令牌: 2,821 推理令牌: 44,723 响应时间：平均 27.78s · 总计 472.24s · 最大 168.71s 答案错误: 3 未遵循指令: 2 反AI技巧 : 8.3 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 6.7 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0
#6#6	Qwen3.6 Plus Previewmedium	8.5	Qwen	$0.000	13.94s
查看模型卡片总测试数: 17 错误测试数: 4 尝试通过率: 76.5% 不稳定测试: 0 输出令牌: 1,756 推理令牌: 77,213 响应时间：平均 13.94s · 总计 237.01s · 最大 43.55s 答案错误: 3 未遵循指令: 1 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0
#7#7	GPT-5.3-Codexmedium	8.5	OpenAI	$0.544	15.76s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 82.4% 不稳定测试: 3 输出令牌: 1,788 推理令牌: 33,649 响应时间：平均 15.76s · 总计 267.97s · 最大 100.93s 答案错误: 3 未遵循指令: 2 反AI技巧 : 8.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.6 指令遵循 : 10.0 谜题求解 : 9.0 工具调用 : 10.0
#8#8	Gemini 3.1 Flash Lite Previewhigh	8.4	Google	$2.310	68.83s
查看模型卡片总测试数: 16 错误测试数: 4 尝试通过率: 77.1% 不稳定测试: 1 输出令牌: 1,283 推理令牌: 1,533,310 响应时间：平均 68.83s · 总计 1101.32s · 最大 280.52s 答案错误: 3 未遵循指令: 1 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 7.9 谜题求解 : 7.7 工具调用 : 10.0
#9#9	Qwen3.5 Plus 2026-02-15medium	8.4	Qwen	$0.189	39.13s
查看模型卡片总测试数: 17 错误测试数: 4 尝试通过率: 82.4% 不稳定测试: 2 输出令牌: 1,754 推理令牌: 92,522 响应时间：平均 39.13s · 总计 391.29s · 最大 81.20s 超时: 2 答案错误: 2 反AI技巧 : 8.2 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0
#10#10	Qwen3.5-122B-A10Bmedium	8.4	Qwen	$0.505	29.05s
查看模型卡片总测试数: 17 错误测试数: 4 尝试通过率: 80.4% 不稳定测试: 2 输出令牌: 17,313 推理令牌: 151,974 响应时间：平均 29.05s · 总计 493.86s · 最大 119.29s 答案错误: 3 超时: 1 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.4 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0
#11#11	Qwen3.5-27Bmedium	8.3	Qwen	$0.467	52.01s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 80.4% 不稳定测试: 3 输出令牌: 2,125 推理令牌: 223,335 响应时间：平均 52.01s · 总计 884.10s · 最大 163.96s 未遵循指令: 2 额外格式: 1 超时: 1 答案错误: 1 反AI技巧 : 8.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0
#12#12	GLM 5medium	8.3	Z.ai	$0.108	17.15s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 84.3% 不稳定测试: 4 输出令牌: 19,833 推理令牌: 38,523 响应时间：平均 17.15s · 总计 154.32s · 最大 28.96s 答案错误: 2 未遵循指令: 1 无答案: 1 超时: 1 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 7.1 领域专项 : 3.5 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0
#13#13	DeepSeek V3.2medium	8.2	DeepSeek	$0.026	38.49s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 80.4% 不稳定测试: 3 输出令牌: 9,994 推理令牌: 41,719 响应时间：平均 38.49s · 总计 654.41s · 最大 93.11s 答案错误: 3 未遵循指令: 1 超时: 1 反AI技巧 : 8.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.4 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0
#14#14	Gemini 2.5 Flashmedium	8.1	Google	$0.292	11.88s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 74.5% 不稳定测试: 1 输出令牌: 1,376 推理令牌: 111,923 响应时间：平均 11.88s · 总计 201.89s · 最大 95.48s 答案错误: 4 未遵循指令: 1 反AI技巧 : 8.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.8 指令遵循 : 9.8 谜题求解 : 7.7 工具调用 : 10.0
#15#15	Gemini 3.1 Flash Lite Previewmedium	8.1	Google	$0.050	3.70s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 70.6% 不稳定测试: 0 输出令牌: 1,737 推理令牌: 26,346 响应时间：平均 3.70s · 总计 62.97s · 最大 14.93s 答案错误: 4 未遵循指令: 1 反AI技巧 : 9.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0
#16#16	GPT-5.4medium	8.1	OpenAI	$0.794	18.95s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 78.4% 不稳定测试: 3 输出令牌: 1,780 推理令牌: 46,687 响应时间：平均 18.95s · 总计 322.23s · 最大 100.41s 答案错误: 3 未遵循指令: 2 反AI技巧 : 8.3 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.7 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0
#17#17	GLM 5 Turbomedium	8.0	Z.ai	$0.166	17.98s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 76.5% 不稳定测试: 5 输出令牌: 11,865 推理令牌: 35,632 响应时间：平均 17.98s · 总计 305.72s · 最大 194.23s 答案错误: 3 未遵循指令: 2 超时: 1 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 7.3 工具调用 : 10.0
#18#18	Gemini 3.1 Flash Lite Previewlow	8.0	Google	$0.021	3.28s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 70.6% 不稳定测试: 0 输出令牌: 1,617 推理令牌: 7,686 响应时间：平均 3.28s · 总计 55.80s · 最大 11.91s 答案错误: 4 未遵循指令: 1 反AI技巧 : 8.3 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0
#19#19	Gemini 3 Flash Previewnone	8.0	Google	$0.019	1.66s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 76.5% 不稳定测试: 2 输出令牌: 1,417 推理令牌: 0 响应时间：平均 1.66s · 总计 16.61s · 最大 3.56s 答案错误: 5 反AI技巧 : 8.3 综合 : 4.7 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 6.4 谜题求解 : 7.7 工具调用 : 10.0
#20#20	Qwen3.5-Flashmedium	8.0	Qwen	$0.076	67.96s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 82.4% 不稳定测试: 5 输出令牌: 1,827 推理令牌: 179,299 响应时间：平均 67.96s · 总计 1155.28s · 最大 234.29s 超时: 3 API 错误: 1 未遵循指令: 1 答案错误: 1 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 10.0 谜题求解 : 6.4 工具调用 : 10.0
#21#21	MiMo-V2-Promedium	8.0	Xiaomi	$0.123	9.78s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 76.5% 不稳定测试: 3 输出令牌: 1,875 推理令牌: 26,959 响应时间：平均 9.78s · 总计 156.45s · 最大 64.71s 答案错误: 3 额外格式: 1 未遵循指令: 1 超时: 1 反AI技巧 : 10.0 综合 : 4.7 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 9.9 谜题求解 : 7.0 工具调用 : 10.0
#22#22	Claude Sonnet 4.6medium	7.9	Anthropic	$1.024	10.09s
查看模型卡片总测试数: 17 错误测试数: 5 尝试通过率: 72.6% 不稳定测试: 1 输出令牌: 35,174 推理令牌: 24,687 响应时间：平均 10.09s · 总计 90.85s · 最大 46.35s 额外格式: 2 答案错误: 2 超时: 1 反AI技巧 : 6.5 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0
#23#23	MiMo-V2-Omnimedium	7.9	Xiaomi	$0.084	13.71s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 64.7% 不稳定测试: 0 输出令牌: 663 推理令牌: 39,001 响应时间：平均 13.71s · 总计 233.06s · 最大 158.78s 未遵循指令: 2 答案错误: 2 额外格式: 1 无答案: 1 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 8.3 谜题求解 : 6.5 工具调用 : 10.0
#24#24	Grok 4.20 Betamedium	7.9	X AI	$0.608	8.54s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 72.6% 不稳定测试: 2 输出令牌: 1,487 推理令牌: 87,922 响应时间：平均 8.54s · 总计 145.26s · 最大 24.21s 未遵循指令: 3 答案错误: 3 反AI技巧 : 8.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 8.3 谜题求解 : 8.2 工具调用 : 3.0
#25#25	Step 3.5 Flashmedium	7.9	Stepfun	$0.000	26.78s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 70.6% 不稳定测试: 2 输出令牌: 71,904 推理令牌: 155,607 响应时间：平均 26.78s · 总计 294.58s · 最大 170.45s 未遵循指令: 3 答案错误: 3 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.5 指令遵循 : 8.5 谜题求解 : 5.3 工具调用 : 10.0
#26#26	Gemini 3.1 Flash Lite Previewnone	7.8	Google	$0.015	1.29s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 68.6% 不稳定测试: 1 输出令牌: 4,721 推理令牌: 0 响应时间：平均 1.29s · 总计 21.95s · 最大 3.39s 答案错误: 4 未遵循指令: 2 反AI技巧 : 7.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 10.0 工具调用 : 10.0
#27#27	GPT-5.2 Chatnone	7.8	OpenAI	$0.271	6.72s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 74.5% 不稳定测试: 3 输出令牌: 16,001 推理令牌: 0 响应时间：平均 6.72s · 总计 114.20s · 最大 38.52s 答案错误: 5 未遵循指令: 1 反AI技巧 : 8.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 7.5 谜题求解 : 7.7 工具调用 : 10.0
#28#28	MiMo-V2-Flashmedium	7.6	Xiaomi	$0.037	24.30s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 70.6% 不稳定测试: 2 输出令牌: 11,959 推理令牌: 111,534 响应时间：平均 24.30s · 总计 267.31s · 最大 96.01s 答案错误: 3 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 8.1 综合 : 9.8 数据解析与提取 : 6.5 领域专项 : 5.9 通用智能 : 4.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0
#29#29	GPT-5.3 Chatnone	7.6	OpenAI	$0.318	5.68s
查看模型卡片总测试数: 17 错误测试数: 7 尝试通过率: 66.7% 不稳定测试: 3 输出令牌: 19,348 推理令牌: 0 响应时间：平均 5.68s · 总计 96.58s · 最大 18.33s 答案错误: 5 未遵循指令: 2 反AI技巧 : 6.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.6 指令遵循 : 8.3 谜题求解 : 10.0 工具调用 : 10.0
#30#30	Claude Opus 4.6medium	7.5	Anthropic	$1.317	20.87s
查看模型卡片总测试数: 17 错误测试数: 6 尝试通过率: 68.6% 不稳定测试: 2 输出令牌: 26,343 推理令牌: 17,434 响应时间：平均 20.87s · 总计 208.73s · 最大 83.40s 额外格式: 4 答案错误: 2 反AI技巧 : 6.4 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0
#31#31	GPT-5.4 Nanomedium	7.4	OpenAI	$0.077	11.08s
查看模型卡片总测试数: 17 错误测试数: 7 尝试通过率: 66.7% 不稳定测试: 2 输出令牌: 2,474 推理令牌: 54,516 响应时间：平均 11.08s · 总计 188.39s · 最大 94.06s 答案错误: 4 未遵循指令: 3 反AI技巧 : 8.3 综合 : 9.8 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.5 指令遵循 : 9.8 谜题求解 : 4.0 工具调用 : 10.0
#32#32	Seed-2.0-Minimedium	7.3	Bytedance Seed	$0.029	60.58s
查看模型卡片总测试数: 17 错误测试数: 7 尝试通过率: 64.7% 不稳定测试: 2 输出令牌: 1,971 推理令牌: 58,624 响应时间：平均 60.58s · 总计 848.16s · 最大 262.83s 超时: 4 答案错误: 2 未遵循指令: 1 反AI技巧 : 6.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.1 指令遵循 : 10.0 谜题求解 : 8.2 工具调用 : 10.0
#33#33	GPT-5.2medium	7.3	OpenAI	$0.314	13.93s
查看模型卡片总测试数: 17 错误测试数: 7 尝试通过率: 70.6% 不稳定测试: 4 输出令牌: 2,238 推理令牌: 16,811 响应时间：平均 13.93s · 总计 139.29s · 最大 77.80s 未遵循指令: 3 答案错误: 2 无答案: 1 超时: 1 反AI技巧 : 6.5 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 3.7 指令遵循 : 9.9 谜题求解 : 7.7 工具调用 : 4.7
#34#34	Qwen3.5-35B-A3Bmedium	7.3	Qwen	$0.349	42.48s
查看模型卡片总测试数: 17 错误测试数: 8 尝试通过率: 78.4% 不稳定测试: 7 输出令牌: 5,864 推理令牌: 175,683 响应时间：平均 42.48s · 总计 722.12s · 最大 106.00s 超时: 4 答案错误: 2 API 错误: 1 无答案: 1 反AI技巧 : 10.0 综合 : 4.7 数据解析与提取 : 7.3 领域专项 : 4.1 通用智能 : 2.8 指令遵循 : 10.0 谜题求解 : 6.4 工具调用 : 10.0
#35#35	Claude Sonnet 4.6none	7.3	Anthropic	$0.252	5.12s
查看模型卡片总测试数: 17 错误测试数: 7 尝试通过率: 62.8% 不稳定测试: 1 输出令牌: 6,910 推理令牌: 0 响应时间：平均 5.12s · 总计 51.16s · 最大 23.84s 额外格式: 3 答案错误: 3 未遵循指令: 1 反AI技巧 : 4.8 综合 : 9.5 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 6.1 指令遵循 : 6.5 谜题求解 : 7.7 工具调用 : 10.0
#36#36	Kimi K2.5medium	7.2	Moonshot AI	$0.201	64.59s
查看模型卡片总测试数: 17 错误测试数: 8 尝试通过率: 72.6% 不稳定测试: 6 输出令牌: 40,907 推理令牌: 75,121 响应时间：平均 64.59s · 总计 645.93s · 最大 137.29s 答案错误: 4 未遵循指令: 2 无答案: 1 超时: 1 反AI技巧 : 7.3 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 6.5 指令遵循 : 10.0 谜题求解 : 5.3 工具调用 : 10.0
#37#37	GPT-5.4 Minimedium	7.1	OpenAI	$0.289	15.66s
查看模型卡片总测试数: 17 错误测试数: 9 尝试通过率: 68.6% 不稳定测试: 6 输出令牌: 1,708 推理令牌: 58,019 响应时间：平均 15.66s · 总计 266.14s · 最大 102.91s 未遵循指令: 5 答案错误: 4 反AI技巧 : 8.6 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 4.1 通用智能 : 4.5 指令遵循 : 7.4 谜题求解 : 6.8 工具调用 : 4.7
#38#38	Hunter Alphamedium	7.0	Openrouter	$0.000	10.33s
查看模型卡片总测试数: 17 错误测试数: 9 尝试通过率: 68.6% 不稳定测试: 6 输出令牌: 4,724 推理令牌: 17,921 响应时间：平均 10.33s · 总计 175.60s · 最大 30.53s 答案错误: 4 未遵循指令: 2 超时: 2 额外格式: 1 反AI技巧 : 7.3 综合 : 4.7 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 7.0 指令遵循 : 9.9 谜题求解 : 6.1 工具调用 : 10.0
#39#39	Grok 4.1 Fastmedium	6.9	X AI	$0.052	23.91s
查看模型卡片总测试数: 17 错误测试数: 8 尝试通过率: 66.7% 不稳定测试: 5 输出令牌: 1,189 推理令牌: 84,595 响应时间：平均 23.91s · 总计 239.09s · 最大 121.79s 未遵循指令: 3 答案错误: 3 无答案: 1 超时: 1 反AI技巧 : 8.7 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 5.8 通用智能 : 4.2 指令遵循 : 6.6 谜题求解 : 5.3 工具调用 : 2.8
#40#40	Nemotron 3 Supermedium	6.9	NVIDIA	$0.000	19.06s
查看模型卡片总测试数: 17 错误测试数: 8 尝试通过率: 58.8% 不稳定测试: 3 输出令牌: 11,947 推理令牌: 29,768 响应时间：平均 19.06s · 总计 305.04s · 最大 87.80s 未遵循指令: 4 答案错误: 3 超时: 1 反AI技巧 : 10.0 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 3.8 指令遵循 : 7.2 谜题求解 : 3.5 工具调用 : 10.0
#41#41	GPT-5 Minimedium	6.8	OpenAI	$0.118	24.02s
查看模型卡片总测试数: 17 错误测试数: 9 尝试通过率: 58.8% 不稳定测试: 3 输出令牌: 5,896 推理令牌: 49,322 响应时间：平均 24.02s · 总计 408.39s · 最大 88.15s 未遵循指令: 4 答案错误: 4 超时: 1 反AI技巧 : 7.1 综合 : 10.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.5 指令遵循 : 8.0 谜题求解 : 5.6 工具调用 : 10.0
#42#42	Qwen3.5 Plus 2026-02-15none	6.8	Qwen	$0.016	2.51s
查看模型卡片总测试数: 17 错误测试数: 8 尝试通过率: 54.9% 不稳定测试: 1 输出令牌: 2,018 推理令牌: 0 响应时间：平均 2.51s · 总计 27.60s · 最大 6.65s 答案错误: 8 反AI技巧 : 4.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0
#43#43	GLM 5none	6.7	Z.ai	$0.019	3.77s
查看模型卡片总测试数: 17 错误测试数: 8 尝试通过率: 52.9% 不稳定测试: 0 输出令牌: 1,551 推理令牌: 0 响应时间：平均 3.77s · 总计 37.66s · 最大 11.07s 答案错误: 8 反AI技巧 : 4.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 7.7 工具调用 : 10.0
#44#44	MiMo-V2-Omninone	6.4	Xiaomi	$0.006	2.01s
查看模型卡片总测试数: 17 错误测试数: 9 尝试通过率: 47.1% 不稳定测试: 0 输出令牌: 469 推理令牌: 0 响应时间：平均 2.01s · 总计 34.09s · 最大 6.81s 答案错误: 7 未遵循指令: 2 反AI技巧 : 4.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.5 指令遵循 : 6.5 谜题求解 : 8.0 工具调用 : 10.0
#45#45	DeepSeek V3.2none	6.4	DeepSeek	$0.016	12.35s
查看模型卡片总测试数: 17 错误测试数: 10 尝试通过率: 51.0% 不稳定测试: 3 输出令牌: 7,831 推理令牌: 0 响应时间：平均 12.35s · 总计 209.94s · 最大 115.89s 答案错误: 7 额外格式: 2 无效工具调用: 1 反AI技巧 : 3.2 综合 : 6.5 数据解析与提取 : 6.3 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 8.5 工具调用 : 10.0
#46#46	Mercury 2medium	6.3	Inception	$0.045	2.25s
查看模型卡片总测试数: 17 错误测试数: 10 尝试通过率: 51.0% 不稳定测试: 3 输出令牌: 3,723 推理令牌: 46,120 响应时间：平均 2.25s · 总计 35.99s · 最大 14.63s 答案错误: 6 未遵循指令: 4 反AI技巧 : 6.9 综合 : 10.0 数据解析与提取 : 7.3 领域专项 : 2.9 通用智能 : 4.8 指令遵循 : 10.0 谜题求解 : 3.9 工具调用 : 10.0
#47#47	GPT-5 Nanomedium	6.2	OpenAI	$0.061	44.47s
查看模型卡片总测试数: 17 错误测试数: 10 尝试通过率: 58.8% 不稳定测试: 7 输出令牌: 4,500 推理令牌: 143,296 响应时间：平均 44.47s · 总计 444.74s · 最大 204.02s 答案错误: 6 未遵循指令: 3 超时: 1 反AI技巧 : 6.5 综合 : 10.0 数据解析与提取 : 3.7 领域专项 : 5.2 通用智能 : 4.1 指令遵循 : 8.5 谜题求解 : 5.3 工具调用 : 10.0
#48#48	Grok 4.20 Multi-Agent Betamedium	6.2	X AI	$4.978	8.64s
查看模型卡片总测试数: 17 错误测试数: 11 尝试通过率: 54.9% 不稳定测试: 6 输出令牌: 298,948 推理令牌: 296,529 响应时间：平均 8.64s · 总计 129.64s · 最大 35.28s 未遵循指令: 4 答案错误: 3 API 错误: 2 额外格式: 2 反AI技巧 : 6.9 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 2.9 通用智能 : 5.8 指令遵循 : 8.3 谜题求解 : 7.2 工具调用 : 3.0
#49#49	Qwen3.5-Flashnone	6.0	Qwen	$0.006	3.36s
查看模型卡片总测试数: 17 错误测试数: 10 尝试通过率: 43.1% 不稳定测试: 1 输出令牌: 3,777 推理令牌: 0 响应时间：平均 3.36s · 总计 57.15s · 最大 13.73s 答案错误: 9 未遵循指令: 1 反AI技巧 : 3.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 10.0 指令遵循 : 6.3 谜题求解 : 3.3 工具调用 : 10.0
#50#50	gpt-oss-120bmedium	6.0	OpenAI	$0.010	15.05s
查看模型卡片总测试数: 17 错误测试数: 10 尝试通过率: 51.0% 不稳定测试: 5 输出令牌: 13,265 推理令牌: 34,330 响应时间：平均 15.05s · 总计 150.55s · 最大 50.92s 答案错误: 6 未遵循指令: 4 反AI技巧 : 6.7 综合 : 10.0 数据解析与提取 : 6.4 领域专项 : 2.9 通用智能 : 4.3 指令遵循 : 9.9 谜题求解 : 3.2 工具调用 : 9.8
#51#51	Seed-2.0-Litenone	6.0	Bytedance Seed	$0.016	2.40s
查看模型卡片总测试数: 17 错误测试数: 10 尝试通过率: 52.9% 不稳定测试: 5 输出令牌: 2,749 推理令牌: 0 响应时间：平均 2.40s · 总计 40.85s · 最大 6.70s 答案错误: 10 反AI技巧 : 3.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 10.0 指令遵循 : 10.0 谜题求解 : 5.2 工具调用 : 10.0
#52#52	Gemini 2.5 Flashnone	5.9	Google	$0.012	888ms
查看模型卡片总测试数: 17 错误测试数: 11 尝试通过率: 41.2% 不稳定测试: 2 输出令牌: 1,273 推理令牌: 0 响应时间：平均 888ms · 总计 15.10s · 最大 4.39s 答案错误: 10 未遵循指令: 1 反AI技巧 : 3.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 5.0 指令遵循 : 8.0 谜题求解 : 5.7 工具调用 : 10.0
#53#53	Qwen3.5-35B-A3Bnone	5.9	Qwen	$0.015	3.89s
查看模型卡片总测试数: 17 错误测试数: 11 尝试通过率: 47.1% 不稳定测试: 3 输出令牌: 3,761 推理令牌: 0 响应时间：平均 3.89s · 总计 66.07s · 最大 47.43s 答案错误: 9 未遵循指令: 2 反AI技巧 : 3.4 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 7.7 通用智能 : 6.5 指令遵循 : 6.3 谜题求解 : 3.9 工具调用 : 10.0
#54#54	MiniMax M2.5medium	5.9	Minimax	$0.250	39.65s
查看模型卡片总测试数: 17 错误测试数: 12 尝试通过率: 60.8% 不稳定测试: 10 输出令牌: 107,044 推理令牌: 206,422 响应时间：平均 39.65s · 总计 396.47s · 最大 237.27s 答案错误: 5 未遵循指令: 3 超时: 3 无效工具调用: 1 反AI技巧 : 7.9 综合 : 4.5 数据解析与提取 : 4.6 领域专项 : 2.9 通用智能 : 3.8 指令遵循 : 8.1 谜题求解 : 5.3 工具调用 : 10.0
#55#55	Hunter Alphanone	5.9	Openrouter	$0.000	4.58s
查看模型卡片总测试数: 17 错误测试数: 11 尝试通过率: 49.0% 不稳定测试: 4 输出令牌: 2,278 推理令牌: 0 响应时间：平均 4.58s · 总计 77.92s · 最大 15.17s 答案错误: 9 未遵循指令: 2 反AI技巧 : 3.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 6.1 指令遵循 : 6.4 谜题求解 : 5.8 工具调用 : 10.0
#56#56	Qwen3.5-122B-A10Bnone	5.8	Qwen	$0.020	3.71s
查看模型卡片总测试数: 17 错误测试数: 11 尝试通过率: 37.3% 不稳定测试: 1 输出令牌: 2,682 推理令牌: 0 响应时间：平均 3.71s · 总计 63.06s · 最大 46.00s 答案错误: 10 未遵循指令: 1 反AI技巧 : 4.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 5.0 指令遵循 : 4.5 谜题求解 : 5.4 工具调用 : 10.0
#57#57	MiMo-V2-Pronone	5.8	Xiaomi	$0.040	2.31s
查看模型卡片总测试数: 17 错误测试数: 11 尝试通过率: 45.1% 不稳定测试: 3 输出令牌: 1,721 推理令牌: 0 响应时间：平均 2.31s · 总计 39.25s · 最大 6.58s 答案错误: 9 未遵循指令: 2 反AI技巧 : 3.5 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.3 指令遵循 : 6.5 谜题求解 : 6.0 工具调用 : 10.0
#58#58	GPT-5.4none	5.6	OpenAI	$0.095	1.43s
查看模型卡片总测试数: 17 错误测试数: 11 尝试通过率: 39.2% 不稳定测试: 2 输出令牌: 1,837 推理令牌: 0 响应时间：平均 1.43s · 总计 24.27s · 最大 2.89s 答案错误: 10 未遵循指令: 1 反AI技巧 : 3.2 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 5.6 工具调用 : 10.0
#59#59	Qwen3.5-27Bnone	5.6	Qwen	$0.016	1.70s
查看模型卡片总测试数: 17 错误测试数: 12 尝试通过率: 35.3% 不稳定测试: 2 输出令牌: 3,164 推理令牌: 0 响应时间：平均 1.70s · 总计 28.82s · 最大 9.39s 答案错误: 10 未遵循指令: 2 反AI技巧 : 4.8 综合 : 2.8 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 4.8 谜题求解 : 6.7 工具调用 : 10.0
#60#60	Mistral Small 4medium	5.6	Mistral	$0.026	4.18s
查看模型卡片总测试数: 17 错误测试数: 12 尝试通过率: 49.0% 不稳定测试: 6 输出令牌: 12,288 推理令牌: 28,112 响应时间：平均 4.18s · 总计 71.03s · 最大 25.25s 答案错误: 7 未遵循指令: 3 API 错误: 2 反AI技巧 : 5.6 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 7.3 谜题求解 : 3.4 工具调用 : 10.0
#61#61	GLM 5 Turbonone	5.6	Z.ai	$0.029	2.89s
查看模型卡片总测试数: 17 错误测试数: 11 尝试通过率: 37.3% 不稳定测试: 1 输出令牌: 1,270 推理令牌: 0 响应时间：平均 2.89s · 总计 49.05s · 最大 8.21s 答案错误: 9 未遵循指令: 2 反AI技巧 : 3.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.2 指令遵循 : 6.5 谜题求解 : 5.5 工具调用 : 10.0
#62#62	GLM 4.7 Flashnone	5.6	Z.ai	$0.003	3.13s
查看模型卡片总测试数: 17 错误测试数: 12 尝试通过率: 39.2% 不稳定测试: 3 输出令牌: 1,863 推理令牌: 0 响应时间：平均 3.13s · 总计 31.33s · 最大 7.05s 答案错误: 9 未遵循指令: 2 无效工具调用: 1 反AI技巧 : 5.2 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 7.7 通用智能 : 4.0 指令遵循 : 6.5 谜题求解 : 4.4 工具调用 : 2.8
#63#63	Grok 4.20 Betanone	5.3	X AI	$0.090	1.19s
查看模型卡片总测试数: 17 错误测试数: 13 尝试通过率: 31.4% 不稳定测试: 2 输出令牌: 1,517 推理令牌: 0 响应时间：平均 1.19s · 总计 20.22s · 最大 6.48s 答案错误: 9 未遵循指令: 3 无效工具调用: 1 反AI技巧 : 4.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 5.0 指令遵循 : 4.8 谜题求解 : 5.9 工具调用 : 10.0
#64#64	Kimi K2.5none	5.3	Moonshot AI	$0.015	10.83s
查看模型卡片总测试数: 17 错误测试数: 12 尝试通过率: 37.3% 不稳定测试: 3 输出令牌: 2,010 推理令牌: 0 响应时间：平均 10.83s · 总计 108.27s · 最大 42.13s 答案错误: 12 反AI技巧 : 3.6 综合 : 2.8 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0
#65#65	Trinity Large Previewnone	5.3	Arcee AI	$0.000	3.04s
查看模型卡片总测试数: 17 错误测试数: 12 尝试通过率: 31.4% 不稳定测试: 1 输出令牌: 1,843 推理令牌: 0 响应时间：平均 3.04s · 总计 51.75s · 最大 8.91s 答案错误: 10 未遵循指令: 2 反AI技巧 : 3.0 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.4 指令遵循 : 4.1 谜题求解 : 5.4 工具调用 : 10.0
#66#66	Mistral Small 4none	5.3	Mistral	$0.006	629ms
查看模型卡片总测试数: 17 错误测试数: 12 尝试通过率: 33.3% 不稳定测试: 1 输出令牌: 1,624 推理令牌: 0 响应时间：平均 629ms · 总计 10.70s · 最大 1.72s 答案错误: 10 未遵循指令: 2 反AI技巧 : 3.4 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.3 通用智能 : 4.0 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0
#67#67	Nemotron 3 Supernone	5.2	NVIDIA	$0.000	8.86s
查看模型卡片总测试数: 17 错误测试数: 13 尝试通过率: 35.3% 不稳定测试: 3 输出令牌: 4,225 推理令牌: 0 响应时间：平均 8.86s · 总计 150.70s · 最大 24.97s 答案错误: 9 未遵循指令: 4 反AI技巧 : 4.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.6 通用智能 : 4.2 指令遵循 : 4.9 谜题求解 : 5.7 工具调用 : 4.7
#68#68	GPT-4o-mininone	5.0	OpenAI	$0.005	1.94s
查看模型卡片总测试数: 17 错误测试数: 13 尝试通过率: 23.5% 不稳定测试: 0 输出令牌: 1,600 推理令牌: 0 响应时间：平均 1.94s · 总计 19.44s · 最大 7.58s 答案错误: 12 未遵循指令: 1 反AI技巧 : 4.8 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.0 指令遵循 : 4.8 谜题求解 : 3.7 工具调用 : 10.0
#69#69	MiniMax M2.7medium	5.0	Minimax	$0.072	27.32s
查看模型卡片总测试数: 17 错误测试数: 14 尝试通过率: 49.0% 不稳定测试: 10 输出令牌: 4,517 推理令牌: 47,612 响应时间：平均 27.32s · 总计 437.10s · 最大 117.04s 未遵循指令: 6 答案错误: 5 超时: 2 无效工具调用: 1 反AI技巧 : 7.9 综合 : 4.7 数据解析与提取 : 6.3 领域专项 : 3.0 通用智能 : 3.9 指令遵循 : 3.7 谜题求解 : 3.8 工具调用 : 4.7
#70#70	Qwen3 Coder Nextnone	5.0	Qwen	$0.007	10.82s
查看模型卡片总测试数: 17 错误测试数: 13 尝试通过率: 23.5% 不稳定测试: 0 输出令牌: 3,032 推理令牌: 0 响应时间：平均 10.82s · 总计 118.99s · 最大 45.14s 答案错误: 11 额外格式: 1 未遵循指令: 1 反AI技巧 : 3.6 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 10.0 指令遵循 : 4.8 谜题求解 : 3.2 工具调用 : 10.0
#71#71	Mercury 2none	4.8	Inception	$0.007	592ms
查看模型卡片总测试数: 17 错误测试数: 13 尝试通过率: 29.4% 不稳定测试: 2 输出令牌: 1,315 推理令牌: 0 响应时间：平均 592ms · 总计 10.07s · 最大 1.27s 答案错误: 12 未遵循指令: 1 反AI技巧 : 3.0 综合 : 3.0 数据解析与提取 : 7.3 领域专项 : 5.3 通用智能 : 4.8 指令遵循 : 6.5 谜题求解 : 3.1 工具调用 : 10.0
#72#72	GPT-5.4 Mininone	4.8	OpenAI	$0.030	1.17s
查看模型卡片总测试数: 17 错误测试数: 13 尝试通过率: 31.4% 不稳定测试: 3 输出令牌: 2,085 推理令牌: 0 响应时间：平均 1.17s · 总计 19.82s · 最大 2.52s 答案错误: 10 未遵循指令: 3 反AI技巧 : 3.1 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.5 通用智能 : 4.8 指令遵循 : 6.3 谜题求解 : 5.4 工具调用 : 3.0
#73#73	Qwen3.5-9Bnone	4.8	Qwen	$0.005	1.22s
查看模型卡片总测试数: 17 错误测试数: 13 尝试通过率: 23.5% 不稳定测试: 0 输出令牌: 2,945 推理令牌: 0 响应时间：平均 1.22s · 总计 20.74s · 最大 5.91s 答案错误: 9 未遵循指令: 3 无效工具调用: 1 反AI技巧 : 3.1 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 3.0 通用智能 : 4.4 指令遵循 : 6.5 谜题求解 : 3.2 工具调用 : 10.0
#74#74	Qwen3 Coder Nextmedium	4.8	Qwen	$0.007	11.57s
查看模型卡片总测试数: 17 错误测试数: 14 尝试通过率: 25.5% 不稳定测试: 2 输出令牌: 2,941 推理令牌: 0 响应时间：平均 11.57s · 总计 127.32s · 最大 81.80s 答案错误: 9 未遵循指令: 5 反AI技巧 : 3.5 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 5.3 通用智能 : 6.3 指令遵循 : 4.8 谜题求解 : 3.1 工具调用 : 10.0
#75#75	GLM 4.7 Flashmedium	4.7	Z.ai	$0.042	33.44s
查看模型卡片总测试数: 17 错误测试数: 13 尝试通过率: 39.2% 不稳定测试: 7 输出令牌: 38,719 推理令牌: 65,465 响应时间：平均 33.44s · 总计 334.39s · 最大 174.55s 答案错误: 8 未遵循指令: 2 无答案: 2 无效工具调用: 1 反AI技巧 : 4.7 综合 : 2.8 数据解析与提取 : 6.3 领域专项 : 3.5 通用智能 : 3.6 指令遵循 : 6.2 谜题求解 : 2.9 工具调用 : 10.0
#76#76	Qwen3.5-9Bmedium	4.5	Qwen	$0.024	69.21s
查看模型卡片总测试数: 17 错误测试数: 14 尝试通过率: 35.3% 不稳定测试: 6 输出令牌: 18,141 推理令牌: 141,204 响应时间：平均 69.21s · 总计 968.99s · 最大 226.38s 超时: 11 额外格式: 1 未遵循指令: 1 答案错误: 1 反AI技巧 : 5.1 综合 : 3.0 数据解析与提取 : 3.6 领域专项 : 3.6 通用智能 : 2.8 指令遵循 : 6.4 谜题求解 : 3.1 工具调用 : 10.0
#77#77	Grok 4.1 Fastnone	4.4	X AI	$0.008	1.76s
查看模型卡片总测试数: 17 错误测试数: 14 尝试通过率: 23.5% 不稳定测试: 2 输出令牌: 1,154 推理令牌: 0 响应时间：平均 1.76s · 总计 17.56s · 最大 5.51s 答案错误: 12 未遵循指令: 2 反AI技巧 : 3.2 综合 : 3.0 数据解析与提取 : 10.0 领域专项 : 5.9 通用智能 : 4.4 指令遵循 : 3.0 谜题求解 : 3.2 工具调用 : 2.8
#78#78	MiMo-V2-Flashnone	4.4	Xiaomi	$0.023	2.79s
查看模型卡片总测试数: 17 错误测试数: 14 尝试通过率: 27.5% 不稳定测试: 4 输出令牌: 67,796 推理令牌: 0 响应时间：平均 2.79s · 总计 36.29s · 最大 19.68s 答案错误: 11 API 错误: 1 额外格式: 1 未遵循指令: 1 反AI技巧 : 3.2 综合 : 3.0 数据解析与提取 : 2.9 领域专项 : 5.3 通用智能 : 4.6 指令遵循 : 6.5 谜题求解 : 3.6 工具调用 : 10.0
#79#79	GPT-5.4 Nanonone	4.3	OpenAI	$0.009	1.39s
查看模型卡片总测试数: 17 错误测试数: 15 尝试通过率: 29.4% 不稳定测试: 6 输出令牌: 2,185 推理令牌: 0 响应时间：平均 1.39s · 总计 23.70s · 最大 3.84s 答案错误: 12 未遵循指令: 3 反AI技巧 : 3.5 综合 : 3.0 数据解析与提取 : 6.5 领域专项 : 2.9 通用智能 : 3.8 指令遵循 : 5.0 谜题求解 : 3.7 工具调用 : 10.0
#80#80	LFM2-24B-A2Bnone	4.1	Liquid	$0.001	811ms
查看模型卡片总测试数: 16 错误测试数: 15 尝试通过率: 14.6% 不稳定测试: 2 输出令牌: 1,185 推理令牌: 0 响应时间：平均 811ms · 总计 11.35s · 最大 2.88s 答案错误: 9 API 错误: 4 未遵循指令: 2 反AI技巧 : 3.3 综合 : 3.0 数据解析与提取 : 3.0 领域专项 : 5.9 通用智能 : 4.0 指令遵循 : 4.8 谜题求解 : 4.4 工具调用 : 3.0

快速对比

Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewmediumvsGemini 3 PRO Previewmedium Gemini 3 Flash PreviewmediumvsSeed-2.0-Litemedium Gemini 3 Flash PreviewmediumvsQwen3.6 Plus Previewmedium免费可用 Gemini 3 Flash PreviewmediumvsGPT-5.3-Codexmedium Gemini 3.1 Pro PreviewmediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsGemini 3 PRO Previewmedium Gemini 3 PRO PreviewmediumvsSeed-2.0-Litemedium Seed-2.0-LitemediumvsQwen3.6 Plus Previewmedium免费可用 Qwen3.6 Plus Previewmedium免费可用vsGPT-5.3-Codexmedium

AI 基准排行榜

筛选模型

快速对比