AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-19

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Lançamento: 2026-05-08

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Lançamento: 2026-05-08
Pontuação	7.8	7.9
Posição	#40	#32
Confiabilidade	10.0	10.0
Consistência	9.6	9.1
Testes corretos
Taxa de acerto por tentativa	70.2%	71.9%
Testes instáveis	1	2
Execuções totais	57	57
Custo por resultado	9.515	0.452
Custo total	$1.237	$0.059
Preço de entrada	$3.000 / 1M	$0.250 / 1M
Preço de saída	$15.000 / 1M	$1.500 / 1M
Tokens de saída	45,505	2,224
Tokens de raciocínio	28,370	32,034
Tempo de resposta (médio)	14.25s	3.14s
Tempo de resposta (máx.)	46.35s	10.87s
Tempo de resposta (total)	156.71s	59.62s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
Gemini 3.1 Flash Lite	9.1	10.0	75.0%	0		2.39s	604	4,201

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.26s	429	2,712

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		10.87s	327	7,401

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	279	2,845

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		3.16s	15	5,165

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	84	1,142

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
Gemini 3.1 Flash Lite	9.9	10.0	100.0%	0		2.59s	75	3,320

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
Gemini 3.1 Flash Lite	7.6	7.2	77.8%	1		1.95s	165	2,450

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.55s	234	921

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		3.08s	12	1,877

Comparação rápida

Trocar par de comparação

Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Litelow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsDeepSeek V4 FlashhighDisponível grátis Gemini 3.1 Flash LitemediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.5 Flashminimal Gemini 3.1 Flash LitemediumvsGPT-5.3 Chatnone DeepSeek V4 FlashhighDisponível grátisvsGemini 3.1 Flash Litemedium Claude Sonnet 4.6mediumvsQwen3.6 Max Previewnone