Comparar Gráficos Metodologia

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs StepFun: Step 3.5 Flash

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica	Google: Gemini 3.1 Pro Preview medium Lançamento: 2026-02-19	StepFun: Step 3.5 Flash medium Lançamento: 2026-02-01 Disponível grátis
Posição	#2	#13
Pontuação média	9.4	7.4
Consistência	10.0	9.1
Custo por resultado	3.417	0.000
Custo total	$0.513	$0.000
Testes corretos
Taxa de acerto por tentativa	93.8%	68.8%
Testes instáveis	0	2
Execuções totais	48 (16 x 3)	48 (16 x 3)
Tokens de saída	1,521	71,452
Tokens de raciocínio	35,656	155,147
Tempo de resposta (médio)	16.60s	29.10s
Tempo de resposta (máx.)	40.61s	170.45s
Tempo de resposta (total)	149.36s	290.96s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.52s	106	2,533
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	9.0	10.0	100.0%	0		40.61s	432	9,281
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	9.9	10.0	100.0%	0		7.72s	279	3,904
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	7.0	10.0	66.7%	0		32.73s	18	12,424
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Google: Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Comparação rápida

Trocar par de comparação

GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponível grátis Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponível grátis GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponível grátis Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponível grátis Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponível grátis Claude Sonnet 4.6nonevsStep 3.5 FlashmediumDisponível grátis Gemini 3.1 Flash Lite PreviewhighvsStep 3.5 FlashmediumDisponível grátis Gemini 3 Flash PreviewlowvsStep 3.5 FlashmediumDisponível grátis Qwen3.5 Plus 2026-02-15nonevsStep 3.5 FlashmediumDisponível grátis Step 3.5 FlashmediumDisponível grátisvsGLM 5none DeepSeek V3.2nonevsStep 3.5 FlashmediumDisponível grátis Gemini 3.1 Pro PreviewmediumvsGPT-5.2 Chatnone