已对比模型

Grok 4.20 Beta (medium) vs Grok 4.20 Multi Agent Beta (medium) vs Grok 4.1 Fast (medium) vs Gemini 3 Flash Preview (medium) 基准对比: Gemini 3 Flash Preview (medium) 在分数上以 9.6 领先。 Grok 4.1 Fast (medium) 在可靠性上以 10.0 领先。 Grok 4.1 Fast (medium) 的总成本最低，为 $0.069。 Grok 4.20 Multi Agent Beta (medium) 最快，为 9.69s。

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-07-28

排名: #147
总输出令牌: 93,212
响应时间（平均）: 9.75s
总成本: $0.750

排名: #203
总输出令牌: 600,042
响应时间（平均）: 9.69s
总成本: $5.599

排名: #207
总输出令牌: 98,340
响应时间（平均）: 23.85s
总成本: $0.069

排名: #3
总输出令牌: 232,650
响应时间（平均）: 19.20s
总成本: $0.742

推荐模型 Gemini 3 Flash Preview (medium)

它在这里得分最高（9.6），同时成本比本次比较中的其他模型低约 2.9 倍。

详细对比

指标	Grok 4.20 Beta Grok 4.20 Beta medium 发布日期: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium 发布日期: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium 发布日期: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium 发布日期: 2025-12-17

指标	Grok 4.20 Beta Grok 4.20 Beta medium 发布日期: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium 发布日期: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium 发布日期: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium 发布日期: 2025-12-17
分数	6.0	4.8	4.7	9.6
排名	#147	#203	#207	#3
可靠性	不适用	不适用	10.0	10.0
一致性	7.8	6.4	6.3	9.7
测试正确
尝试通过率	66.7%	48.5%	53.0%	98.5%
不稳定测试	1	5	6	1
总运行次数	52	52	57	66
每个结果成本	4.505	62.923	0.642	3.533
总成本	$0.750	$5.599	$0.069	$0.742
输入价格	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$0.500 / 1M
输出价格	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$3.000 / 1M
总输入令牌	35,955	721,952	42,845	87,861
输出令牌	1,647	294,668	2,006	5,486
推理令牌	91,565	305,374	96,334	227,164
响应时间（平均）	9.75s	9.69s	23.85s	19.20s
响应时间（最大）	31.36s	35.28s	121.79s	117.26s
响应时间（总计）	175.48s	155.07s	286.16s	422.42s

模型生成展示

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#147 Grok 4.20 Beta

medium

成本: $0.034
时间: 91.0s
令牌: 13,523 tok

#203 Grok 4.20 Multi Agent Beta

medium

成本: $0.261
时间: 123.4s
令牌: 199,344 tok

#207 Grok 4.1 Fast

medium

Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)

成本: $0.000
时间: 0.1s
令牌: 0 tok

#3 Gemini 3 Flash Preview

medium

成本: $0.010
时间: 18.4s
令牌: 3,351 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

类别:

反AI技巧	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2	3.46s	90,925	33,706	33,077
Grok 4.1 Fast	8.7	7.9	91.7%	1	3.81s	2,358	108	4,741
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	3.88s	494	330	3,216

编程	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.20 Multi Agent Beta	3.3	3.3	33.3%	0	27.11s	13,212	86	13,141
Grok 4.1 Fast	7.8	4.0	11.1%	1	23.58s	1,167	821	6,703
Gemini 3 Flash Preview	8.6	7.6	88.9%	1	84.40s	8,122	462	161,084

综合	分数	一致性	尝试通过率	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	5.0	5.0	50.0%	20.93s	12,909	227	12,212
Grok 4.20 Multi Agent Beta	1.5	5.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	5.0	5.0	50.0%	37.64s	13,899	261	12,272
Gemini 3 Flash Preview	10.0	10.0	100.0%	26.75s	63,717	3,831	23,496

数据解析与提取	分数	一致性	尝试通过率	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	5.54s	97,232	25,306	25,051
Grok 4.1 Fast	10.0	10.0	100.0%	6.63s	8,001	180	5,409
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.43s	7,548	279	4,893

领域专项	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1	24.67s	328,253	164,609	163,647
Grok 4.1 Fast	5.8	4.4	66.7%	2	121.79s	1,777	11	37,657
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	15.27s	633	12	21,684

通用智能	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1	6.40s	41,387	15,848	15,746
Grok 4.1 Fast	4.2	9.9	0.0%	0	16.25s	912	127	3,456
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	5.19s	486	72	1,905

指令遵循	分数	一致性	尝试通过率	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.20 Multi Agent Beta	9.8	10.0	100.0%	3.52s	43,923	19,752	19,617
Grok 4.1 Fast	6.5	10.0	50.0%	4.63s	1,536	54	3,326
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.04s	615	72	2,709

谜题求解	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.20 Multi Agent Beta	6.7	7.9	55.6%	1	5.19s	107,020	35,361	35,095
Grok 4.1 Fast	5.3	7.2	44.4%	1	7.40s	1,950	169	5,904
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	4.05s	558	183	4,365

工具调用	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	3.0	10.0	0.0%	0	12.39s	7,275	183	5,384
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0	0ms	0	0	0
Grok 4.1 Fast	2.8	1.6	33.3%	1	27.71s	10,627	260	11,485
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	12.60s	5,532	234	1,487

常识问答	分数	一致性	尝试通过率	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.20 Multi Agent Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	3.0	10.0	0.0%	25.52s	618	15	5,381
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.50s	156	11	2,325

快速对比

切换对比组合