AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Laguna M.1

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-29

Métrica	DeepSeek V4 Pro DeepSeek V4 Pro none Lançamento: 2026-04-24	Laguna M.1 Laguna M.1 medium Lançamento: 2026-04-28 Disponível grátis

Métrica	DeepSeek V4 Pro DeepSeek V4 Pro none Lançamento: 2026-04-24	Laguna M.1 Laguna M.1 medium Lançamento: 2026-04-28 Disponível grátis
Pontuação	6.7	6.3
Posição	#68	#74
Confiabilidade	0.0	10.0
Consistência	9.5	8.6
Testes corretos
Taxa de acerto por tentativa	51.9%	53.7%
Testes instáveis	1	3
Execuções totais	26	54
Custo por resultado	0.327	0.000
Custo total	$0.030	$0.000
Preço de entrada	$0.435 / 1M	$0.000 / 1M
Preço de saída	$0.870 / 1M	$0.000 / 1M
Tokens de saída	1,611	63,822
Tokens de raciocínio	0	0
Tempo de resposta (médio)	23.34s	13.90s
Tempo de resposta (máx.)	109.46s	53.14s
Tempo de resposta (total)	420.04s	250.28s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	4.8	10.0	25.0%	0		36.12s	221	0
Laguna M.1	6.6	10.0	50.0%	0		9.15s	7,839	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	10.0	10.0	100.0%	0		33.40s	246	0
Laguna M.1	4.3	1.1	66.7%	1		35.61s	14,327	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	9.5	10.0	100.0%	0		34.55s	826	0
Laguna M.1	3.0	10.0	0.0%	0		53.14s	12,272	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	10.0	10.0	100.0%	0		54.04s	65	0
Laguna M.1	10.0	10.0	100.0%	0		4.93s	2,296	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.08s	12	0
Laguna M.1	5.3	7.2	44.4%	1		24.14s	19,020	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	4.5	10.0	0.0%	0		6.06s	45	0
Laguna M.1	4.1	10.0	0.0%	0		6.86s	1,294	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	6.5	10.0	50.0%	0		9.47s	25	0
Laguna M.1	10.0	10.0	100.0%	0		4.30s	1,626	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	6.0	7.1	44.4%	1		19.60s	98	0
Laguna M.1	3.6	7.2	22.2%	1		6.97s	3,978	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	10.0	10.0	100.0%	0		6.47s	73	0
Laguna M.1	10.0	10.0	100.0%	0		6.31s	1,170	0

Comparação rápida

Trocar par de comparação

DeepSeek V4 PrononevsGrok 4.1 Fastmedium DeepSeek V4 PrononevsNemotron 3 SupermediumDisponível grátis Laguna M.1mediumDisponível grátisvsMiMo-V2-Omninone Laguna M.1mediumDisponível grátisvsGLM 5V Turbonone Laguna M.1mediumDisponível grátisvsQwen3.5-Flashnone Gemma 4 26B A4BnoneDisponível grátisvsLaguna M.1mediumDisponível grátis Seed-2.0-LitenonevsLaguna M.1mediumDisponível grátis DeepSeek V4 PrononevsMercury 2medium Gemini 2.5 FlashnonevsLaguna M.1mediumDisponível grátis Laguna M.1mediumDisponível grátisvsQwen3.5-35B-A3Bnone DeepSeek V4 PrononevsGrok 4.20medium Laguna M.1mediumDisponível grátisvsQwen3.6 27Bnone