AI BENCHY Compare

Poolside: Laguna XS 2.1 vs StepFun: Step 3.7 Flash

Resumo

Comparação benchmark Laguna XS 2.1 vs Step 3.7 Flash: A pontuação média está praticamente empatada em 7.0 vs 7.1. Laguna XS 2.1 tem menor custo de benchmark com $0.036 vs $1.148. Laguna XS 2.1 é mais rápido com 30.08s vs 64.46s, com taxas de acerto de 44.4% vs 63.5%.

Modelo recomendado: Laguna XS 2.1 - Tem a melhor pontuação aqui (7.0) e custa cerca de 32.6x menos que Step 3.7 Flash.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-02

Métrica	Laguna XS 2.1 Laguna XS 2.1 medium Lançamento: 2026-07-02 Disponível grátis	Step 3.7 Flash Step 3.7 Flash high Lançamento: 2026-05-29

Métrica	Laguna XS 2.1 Laguna XS 2.1 medium Lançamento: 2026-07-02 Disponível grátis	Step 3.7 Flash Step 3.7 Flash high Lançamento: 2026-05-29
Pontuação	7.0	7.1
Posição	#67	#65
Confiabilidade	10.0	10.0
Consistência	9.6	8.2
Testes corretos
Taxa de acerto por tentativa	44.4%	63.5%
Testes instáveis	1	4
Execuções totais	63	63
Custo por resultado	0.392	10.434
Custo total	$0.036	$1.148
Preço de entrada	$0.060 / 1M	$0.200 / 1M
Preço de saída	$0.120 / 1M	$1.150 / 1M
Total de tokens de entrada	45,324	38,391
Tokens de saída	25,761	991,355
Tokens de raciocínio	268,677	0
Tempo de resposta (médio)	30.08s	64.46s
Tempo de resposta (máx.)	155.23s	364.99s
Tempo de resposta (total)	631.77s	1353.57s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#67 Laguna XS 2.1

medium

Custo: $0.001
Tempo: 30.6s
Tokens: 4,678 tok

#65 Step 3.7 Flash

high

Custo: $0.007
Tempo: 63.6s
Tokens: 6,030 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	4.8	10.0	25.0%	0		41.96s	774	353	73,090
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	5.5	10.0	33.3%	0		70.35s	7,995	23,767	83,258
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	9.6	10.0	100.0%	0		13.43s	18,033	507	5,908
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	10.0	10.0	100.0%	0		4.50s	7,734	234	3,129
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	2.9	7.2	11.1%	1		65.66s	834	17	91,533
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	5.0	10.0	0.0%	0		4.15s	537	119	1,375
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	9.8	10.0	100.0%	0		2.57s	753	82	1,844
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	5.3	10.0	33.3%	0		3.43s	771	357	3,355
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	10.0	10.0	100.0%	0		3.01s	7,638	309	748
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Laguna XS 2.1	3.0	10.0	0.0%	0		10.88s	255	16	4,437
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

Comparação rápida

Trocar par de comparação

Step 3.7 FlashhighvsGLM 5.1medium Step 3.7 FlashhighvsGLM 5.2none Gemini 3.5 FlashnonevsLaguna XS 2.1mediumDisponível grátis Qwen3.7 PlusnonevsStep 3.7 Flashhigh Kimi K2.7 CodemediumvsStep 3.7 Flashhigh Gemma 4 26B A4BmediumDisponível grátisvsStep 3.7 Flashhigh Laguna XS 2.1mediumDisponível grátisvsGLM 5.2none DeepSeek V4 PrononevsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsStep 3.7 Flashhigh Laguna XS 2.1mediumDisponível grátisvsQwen3.7 Plusnone DeepSeek V4 PrononevsLaguna XS 2.1mediumDisponível grátis Claude Opus 4.8nonevsStep 3.7 Flashhigh