AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.5 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-19

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	Gemini 3.5 Flash Gemini 3.5 Flash low Lançamento: 2026-05-19

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	Gemini 3.5 Flash Gemini 3.5 Flash low Lançamento: 2026-05-19
Pontuação	7.8	9.6
Posição	#40	#2
Confiabilidade	10.0	10.0
Consistência	9.6	10.0
Testes corretos
Taxa de acerto por tentativa	70.2%	94.7%
Testes instáveis	1	0
Execuções totais	57	57
Custo por resultado	9.515	1.359
Custo total	$1.237	$0.245
Preço de entrada	$3.000 / 1M	$1.500 / 1M
Preço de saída	$15.000 / 1M	$9.000 / 1M
Tokens de saída	45,505	2,003
Tokens de raciocínio	28,370	20,245
Tempo de resposta (médio)	14.25s	2.84s
Tempo de resposta (máx.)	46.35s	6.44s
Tempo de resposta (total)	156.71s	54.00s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.52s	209	2,536

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
Gemini 3.5 Flash	10.0	10.0	100.0%	0		5.49s	428	3,146

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.44s	351	3,050

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.81s	279	1,164

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
Gemini 3.5 Flash	7.7	10.0	66.7%	0		3.39s	12	4,538

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.27s	119	916

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
Gemini 3.5 Flash	9.9	10.0	100.0%	0		1.86s	71	1,652

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.35s	288	2,150

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.27s	234	403

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.88s	12	690

Comparação rápida

Trocar par de comparação

Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Litelow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsDeepSeek V4 FlashhighDisponível grátis Claude Sonnet 4.6mediumvsGemini 3.5 Flashminimal Claude Sonnet 4.6mediumvsQwen3.6 Max Previewnone Claude Sonnet 4.6mediumvsRing-2.6-1Tnone Claude Opus 4.7mediumvsGemini 3.5 Flashlow Gemini 3.5 FlashlowvsGPT-5.5medium