AI BENCHY Compare

Google: Gemini 3.5 Flash vs OpenAI: GPT-5.3-Codex

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-19

Métrica	Gemini 3.5 Flash Gemini 3.5 Flash none Lançamento: 2026-05-19	GPT-5.3-Codex GPT-5.3-Codex medium Lançamento: 2026-02-05

Métrica	Gemini 3.5 Flash Gemini 3.5 Flash none Lançamento: 2026-05-19	GPT-5.3-Codex GPT-5.3-Codex medium Lançamento: 2026-02-05
Pontuação	9.1	8.2
Posição	#6	#17
Confiabilidade	10.0	10.0
Consistência	9.0	8.3
Testes corretos
Taxa de acerto por tentativa	91.7%	80.7%
Testes instáveis	2	4
Execuções totais	57	57
Custo por resultado	3.490	4.594
Custo total	$0.489	$0.598
Preço de entrada	$1.500 / 1M	$1.750 / 1M
Preço de saída	$9.000 / 1M	$14.000 / 1M
Tokens de saída	53,202	2,309
Tokens de raciocínio	0	36,880
Tempo de resposta (médio)	5.59s	15.33s
Tempo de resposta (máx.)	14.88s	100.93s
Tempo de resposta (total)	89.50s	291.34s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.53s	5,101	0
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	240	1,722

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	10.0	10.0	100.0%	0		14.88s	11,611	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		8.95s	491	1,530

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	0.0	0.0	0.0%	0		0ms	0	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	10.0	10.0	100.0%	0		8.10s	5,895	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	234	728

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	7.6	7.2	77.8%	1		10.64s	17,910	0
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	64	25,308

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.46s	1,620	0
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	187	331

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	9.8	10.0	100.0%	0		3.38s	3,928	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.13s	4,640	0
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.12s	352	1,644

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	0.0	0.0	0.0%	0		0ms	0	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.5 Flash	2.8	1.6	33.3%	1		4.87s	2,497	0
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	30	1,701

Comparação rápida

Trocar par de comparação

Gemini 3.5 FlashminimalvsGPT-5.3-Codexmedium Claude Opus 4.7mediumvsGemini 3.5 Flashnone Gemini 3.5 FlashnonevsGPT-5.5medium Gemini 3.5 FlashnonevsGPT-5.5low Gemini 3 Flash PreviewnonevsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Gemini 3.5 FlashnonevsQwen3.6 Max Previewmedium Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 3.1 Flash LitelowvsGPT-5.3-Codexmedium DeepSeek V4 FlashhighDisponível grátisvsGPT-5.3-Codexmedium Seed-2.0-LitemediumvsGemini 3.5 Flashnone