Comparar Gráficos Metodologia

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs xAI: Grok 4.1 Fast

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica	Google: Gemini 3.1 Flash Lite Preview low Lançamento: 2026-03-03	xAI: Grok 4.1 Fast medium Lançamento: 2025-11-19
Posição	#17	#30
Pontuação média	7.3	6.2
Consistência	10.0	7.9
Custo por resultado	0.177	0.563
Custo total	$0.020	$0.051
Testes corretos
Taxa de acerto por tentativa	68.8%	66.7%
Testes instáveis	0	4
common.totalRuns	48 (16 x 3)	48 (16 x 3)
Tokens de saída	1,611	1,183
Tokens de raciocínio	7,272	83,875
Tempo de resposta (médio)	3.36s	26.35s
Tempo de resposta (máx.)	11.91s	121.79s
Tempo de resposta (total)	53.84s	237.11s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Flash Lite Preview	7.0	10.0	66.7%	0		2.18s	456	1,224
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		5.65s	102	4,021

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	0.0%	0		11.91s	225	762
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		3.00s	291	696
xAI: Grok 4.1 Fast	9.9	10.0	100.0%	0		6.63s	180	5,409

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		2.36s	18	1,212
xAI: Grok 4.1 Fast	4.0	4.4	66.7%	2		121.79s	11	37,657

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		1.54s	69	384
xAI: Grok 4.1 Fast	3.0	9.9	0.0%	0		16.25s	127	3,456

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753
xAI: Grok 4.1 Fast	5.5	10.0	50.0%	0		5.30s	55	3,489

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.76s	243	1,248
xAI: Grok 4.1 Fast	4.0	7.2	44.4%	1		8.08s	187	6,086

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993
xAI: Grok 4.1 Fast	10.0	1.6	33.3%	1		27.71s	260	11,485

Comparação rápida

Trocar par de comparação

DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponível grátis Grok 4.1 FastmediumvsGLM 5none Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium