Step 3.7 Flash (low) vs Grok Build 0.1 (medium)

Modelo recomendado Step 3.7 Flash (low)

A pontuação fica perto da melhor aqui (7.3 vs 7.6) e custa cerca de 2.4x menos que Grok Build 0.1 (medium).

Comparação detalhada

Métrica	Step 3.7 Flash Step 3.7 Flash low Lançamento: 2026-05-29	Grok Build 0.1 Grok Build 0.1 medium Lançamento: 2026-05-21

Métrica	Step 3.7 Flash Step 3.7 Flash low Lançamento: 2026-05-29	Grok Build 0.1 Grok Build 0.1 medium Lançamento: 2026-05-21
Pontuação	7.3	7.6
Posição	#77	#56
Confiabilidade	10.0	10.0
Consistência	8.1	10.0
Testes corretos
Taxa de acerto por tentativa	68.2%	63.6%
Testes instáveis	5	0
Execuções totais	66	66
Custo por resultado	3.782	7.830
Custo total	$0.454	$1.097
Preço de entrada	$0.200 / 1M	$1.000 / 1M
Preço de saída	$1.150 / 1M	$2.000 / 1M
Total de tokens de entrada	103,833	106,751
Tokens de saída	376,581	7,993
Tokens de raciocínio	0	486,670
Tempo de resposta (médio)	20.68s	52.06s
Tempo de resposta (máx.)	124.75s	252.69s
Tempo de resposta (total)	455.01s	1145.27s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

low

SVG inválido

medium

Categoria:

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	8.7	7.9	91.7%	1		4.02s	756	10,896	0
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	2,010	220	12,162

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	8.2	7.2	88.9%	1		9.46s	7,437	18,685	0
Grok Build 0.1	5.7	9.7	33.3%	0		108.46s	8,304	1,138	161,452

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	7.3	5.8	83.3%	1		66.18s	77,415	93,682	0
Grok Build 0.1	10.0	10.0	100.0%	0		65.08s	75,242	5,442	65,569

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	7.3	5.8	83.3%	1		2.29s	7,398	2,667	0
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	7,761	180	8,876

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	5.3	7.2	44.4%	1		43.31s	828	104,487	0
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	1,764	492	175,294

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	3.4	9.3	0.0%	0		7.00s	525	4,604	0
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	825	76	6,345

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	9.8	10.0	100.0%	0		1.58s	735	1,857	0
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	1,362	57	9,599

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	5.5	9.9	33.3%	0		1.84s	756	3,564	0
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	1,689	195	20,841

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	10.0	10.0	100.0%	0		3.25s	7,746	1,360	0
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	7,263	180	4,969

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Step 3.7 Flash	3.0	10.0	0.0%	0		124.75s	237	134,779	0
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	531	13	21,563

Trocar par de comparação