Comparar Gráficos

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs OpenAI: GPT-5.4

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-05

Métrica	Google: Gemini 3.1 Pro Preview medium Lançamento: 2026-02-19	OpenAI: GPT-5.4 none Lançamento: 2026-03-05
Posição	#2	#44
Pontuação média	9.3	4.6
Testes corretos
Consistência	10.0	8.9
Custo por resultado	3.544	1.496
Custo total	$0.497	$0.090
Taxa de acerto por tentativa	93.3%	44.4%
Testes instáveis	0	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Tokens de saída	1,413	1,635
Tokens de raciocínio	34,477	0
Tempo de resposta (médio)	17.20s	1.46s
Tempo de resposta (máx.)	40.61s	2.89s
Tempo de resposta (total)	137.59s	21.86s

Melhores modelos por pontuação

Tempo de resposta (médio)

Pontuação vs custo total

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.52s	106	2,533
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	9.0	10.0	100.0%	0		40.61s	432	9,281
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	9.9	10.0	100.0%	0		7.72s	279	3,904
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	7.0	10.0	66.7%	0		32.73s	18	12,424
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Comparação rápida

Trocar par de comparação

MiniMax M2.5mediumvsGPT-5.4none Mercury 2mediumvsGPT-5.4none GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium GPT-5.4nonevsGLM 4.7 Flashmedium Gemini 3.1 Pro PreviewmediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsGPT-5.4none Kimi K2.5mediumvsGPT-5.4none GPT-5.4nonevsGrok 4.1 Fastmedium Gemini 3.1 Pro PreviewmediumvsGPT-5.3 Chatnone GPT-5.4nonevsQwen3.5-Flashmedium Seed-2.0-MinimediumvsGPT-5.4none