Modelos comparados

Comparação benchmark Grok 4.20 Beta (medium) vs Grok 4.20 Multi Agent Beta (medium) vs Grok 4.1 Fast (medium) vs Gemini 3 Flash Preview (medium): Gemini 3 Flash Preview (medium) lidera em Pontuação com 9.6. Grok 4.1 Fast (medium) lidera em Confiabilidade com 10.0. Grok 4.1 Fast (medium) tem o menor Custo total em $0.069. Grok 4.20 Multi Agent Beta (medium) é o mais rápido com 9.69s.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-28

Posição: #147
Total de tokens de saída: 93,212
Tempo de resposta (médio): 9.75s
Custo total: $0.750

Posição: #203
Total de tokens de saída: 600,042
Tempo de resposta (médio): 9.69s
Custo total: $5.599

Posição: #207
Total de tokens de saída: 98,340
Tempo de resposta (médio): 23.85s
Custo total: $0.069

Posição: #3
Total de tokens de saída: 232,650
Tempo de resposta (médio): 19.20s
Custo total: $0.742

Modelo recomendado Gemini 3 Flash Preview (medium)

Tem a melhor pontuação aqui (9.6) e custa cerca de 2.9x menos que os outros modelos nesta comparação.

Comparação detalhada

Métrica	Grok 4.20 Beta Grok 4.20 Beta medium Lançamento: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lançamento: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Lançamento: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Lançamento: 2025-12-17

Métrica	Grok 4.20 Beta Grok 4.20 Beta medium Lançamento: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lançamento: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Lançamento: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Lançamento: 2025-12-17
Pontuação	6.0	4.8	4.7	9.6
Posição	#147	#203	#207	#3
Confiabilidade	N/D	N/D	10.0	10.0
Consistência	7.8	6.4	6.3	9.7
Testes corretos
Taxa de acerto por tentativa	66.7%	48.5%	53.0%	98.5%
Testes instáveis	1	5	6	1
Execuções totais	52	52	57	66
Custo por resultado	4.505	62.923	0.642	3.533
Custo total	$0.750	$5.599	$0.069	$0.742
Preço de entrada	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$0.500 / 1M
Preço de saída	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$3.000 / 1M
Total de tokens de entrada	35,955	721,952	42,845	87,861
Tokens de saída	1,647	294,668	2,006	5,486
Tokens de raciocínio	91,565	305,374	96,334	227,164
Tempo de resposta (médio)	9.75s	9.69s	23.85s	19.20s
Tempo de resposta (máx.)	31.36s	35.28s	121.79s	117.26s
Tempo de resposta (total)	175.48s	155.07s	286.16s	422.42s

Geração showcase de modelos

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#147 Grok 4.20 Beta

medium

Custo: $0.034
Tempo: 91.0s
Tokens: 13,523 tok

#203 Grok 4.20 Multi Agent Beta

medium

Custo: $0.261
Tempo: 123.4s
Tokens: 199,344 tok

#207 Grok 4.1 Fast

medium

Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)

Custo: $0.000
Tempo: 0.1s
Tokens: 0 tok

#3 Gemini 3 Flash Preview

medium

Custo: $0.010
Tempo: 18.4s
Tokens: 3,351 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Categoria:

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2	3.46s	90,925	33,706	33,077
Grok 4.1 Fast	8.7	7.9	91.7%	1	3.81s	2,358	108	4,741
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	3.88s	494	330	3,216

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.20 Multi Agent Beta	3.3	3.3	33.3%	0	27.11s	13,212	86	13,141
Grok 4.1 Fast	7.8	4.0	11.1%	1	23.58s	1,167	821	6,703
Gemini 3 Flash Preview	8.6	7.6	88.9%	1	84.40s	8,122	462	161,084

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	5.0	5.0	50.0%	20.93s	12,909	227	12,212
Grok 4.20 Multi Agent Beta	1.5	5.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	5.0	5.0	50.0%	37.64s	13,899	261	12,272
Gemini 3 Flash Preview	10.0	10.0	100.0%	26.75s	63,717	3,831	23,496

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	5.54s	97,232	25,306	25,051
Grok 4.1 Fast	10.0	10.0	100.0%	6.63s	8,001	180	5,409
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.43s	7,548	279	4,893

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1	24.67s	328,253	164,609	163,647
Grok 4.1 Fast	5.8	4.4	66.7%	2	121.79s	1,777	11	37,657
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	15.27s	633	12	21,684

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1	6.40s	41,387	15,848	15,746
Grok 4.1 Fast	4.2	9.9	0.0%	0	16.25s	912	127	3,456
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	5.19s	486	72	1,905

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.20 Multi Agent Beta	9.8	10.0	100.0%	3.52s	43,923	19,752	19,617
Grok 4.1 Fast	6.5	10.0	50.0%	4.63s	1,536	54	3,326
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.04s	615	72	2,709

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.20 Multi Agent Beta	6.7	7.9	55.6%	1	5.19s	107,020	35,361	35,095
Grok 4.1 Fast	5.3	7.2	44.4%	1	7.40s	1,950	169	5,904
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	4.05s	558	183	4,365

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	3.0	10.0	0.0%	0	12.39s	7,275	183	5,384
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0	0ms	0	0	0
Grok 4.1 Fast	2.8	1.6	33.3%	1	27.71s	10,627	260	11,485
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	12.60s	5,532	234	1,487

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.20 Multi Agent Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	3.0	10.0	0.0%	25.52s	618	15	5,381
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.50s	156	11	2,325

Comparação rápida

Trocar par de comparação