已对比模型

排名: #90
总输出令牌: 259,340
响应时间（平均）: 29.47s
总成本: $0.777

排名: #152
总输出令牌: 93,212
响应时间（平均）: 9.75s
总成本: $0.750

排名: #88
总输出令牌: 241,421
响应时间（平均）: 47.45s
总成本: $0.779

推荐模型 Grok 4.20 (medium)

它在本次比较中得分最高（7.1），并且在全部 3 个模型中兼顾成本和响应时间最好。

详细对比

指标	Grok 4.20 Grok 4.20 medium 发布日期: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium 发布日期: 2026-03-12	Grok 4.3 Grok 4.3 medium 发布日期: 2026-05-01

指标	Grok 4.20 Grok 4.20 medium 发布日期: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium 发布日期: 2026-03-12	Grok 4.3 Grok 4.3 medium 发布日期: 2026-05-01
分数	7.1	6.0	7.1
排名	#90	#152	#88
可靠性	10.0	不适用	10.0
一致性	8.5	7.8	8.6
测试正确
尝试通过率	63.6%	66.7%	68.2%
不稳定测试	4	1	4
总运行次数	66	52	66
每个结果成本	9.709	4.505	5.990
总成本	$0.777	$0.750	$0.779
输入价格	$1.250 / 1M	$5.805 / 1M	$1.250 / 1M
输出价格	$2.500 / 1M	$5.805 / 1M	$2.500 / 1M
总输入令牌	102,791	35,955	140,031
输出令牌	5,363	1,647	13,739
推理令牌	253,977	91,565	227,682
响应时间（平均）	29.47s	9.75s	47.45s
响应时间（最大）	199.66s	31.36s	216.69s
响应时间（总计）	648.35s	175.48s	1043.83s

模型生成展示

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#90 xAI: Grok 4.20

medium

成本: $0.041
时间: 110.3s
令牌: 16,336 tok

#152 Grok 4.20 Beta

medium

成本: $0.034
时间: 91.0s
令牌: 13,523 tok

#88 xAI: Grok 4.3

medium

成本: $0.009
时间: 19.0s
令牌: 3,661 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

类别:

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	2,010	268	7,583
Grok 4.3	10.0	10.0	100.0%	0		8.83s	2,010	88	8,207

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150
Grok 4.20 Beta	3.3	3.3	33.3%	0		31.36s	360	81	3,987
Grok 4.3	5.9	7.7	44.4%	1		41.23s	8,340	1,028	31,226

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	8.7	6.9	83.3%	1		42.25s	71,267	3,776	44,009
Grok 4.20 Beta	5.0	5.0	50.0%	0		20.93s	12,909	227	12,212
Grok 4.3	6.5	10.0	50.0%	0		55.07s	108,468	11,992	21,601

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	7,761	180	5,281
Grok 4.3	10.0	10.0	100.0%	0		18.97s	7,761	180	9,546

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	1,764	251	40,255
Grok 4.3	5.3	7.2	44.4%	1		181.74s	1,764	14	111,300

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	825	72	3,440
Grok 4.3	5.4	2.5	66.7%	1		24.70s	825	70	5,020

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419
Grok 4.20 Beta	9.8	10.0	100.0%	0		4.89s	1,362	57	7,123
Grok 4.3	9.8	10.0	100.0%	0		18.58s	1,362	57	8,713

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913
Grok 4.20 Beta	10.0	10.0	100.0%	0		3.52s	1,689	328	6,300
Grok 4.3	5.9	7.2	55.6%	1		22.52s	1,689	128	14,468

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	7,275	183	5,384
Grok 4.3	10.0	10.0	100.0%	0		17.66s	7,263	168	4,615

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442
Grok 4.20 Beta	0.0	0.0	0.0%	0		0ms	0	0	0
Grok 4.3	3.0	10.0	0.0%	0		44.47s	549	14	12,986

快速对比

切换对比组合

Qwen3.7 PlusnonevsGrok 4.3medium Qwen3.7 PlusnonevsGrok 4.20medium KAT-Coder-Pro V2.5highvsGrok 4.3medium KAT-Coder-Pro V2.5highvsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.3medium Gemini 3.5 FlashnonevsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.20medium Qwen3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.20medium Gemini 3.5 FlashnonevsGrok 4.3medium Qwen3.7 FlashlowvsGrok 4.20medium