Comparar Gráficos Metodologia

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemini 3.1 Flash Lite Preview

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-05

Métrica	Anthropic: Claude Opus 4.6 medium Lançamento: 2026-02-05	Google: Gemini 3.1 Flash Lite Preview none Lançamento: 2026-03-03
Pontuação média	6.4	7.4
Posição	#30	#20
Testes corretos
Consistência	8.9	9.6
Custo por resultado	14.411	0.142
Custo total	$1.297	$0.015
Taxa de acerto por tentativa	64.4%	71.1%
Testes instáveis	2	1
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Tokens de saída	26,066	4,646
Tokens de raciocínio	17,071	0
Tempo de resposta (médio)	25.08s	1.37s
Tempo de resposta (máx.)	83.40s	3.39s
Tempo de resposta (total)	200.67s	20.53s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Google: Gemini 3.1 Flash Lite Preview	6.0	7.8	55.6%	1		1.16s	1,086	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	0.0%	0		3.20s	339	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		1.22s	399	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		942ms	568	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		972ms	898	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0

Comparação rápida

Trocar par de comparação

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponível grátis Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium