DeepSeek: DeepSeek V4 Pro vs Xiaomi: MiMo-V2.5-Pro
Resumo
Comparação benchmark DeepSeek V4 Pro vs MiMo-V2.5-Pro: DeepSeek V4 Pro lidera na pontuação média com 6.0 vs 5.5. MiMo-V2.5-Pro tem menor custo de benchmark com $0.017 vs $0.079. MiMo-V2.5-Pro é mais rápido com 1.78s vs 65.21s, com taxas de acerto de 52.4% vs 39.7%.
Modelo recomendado: MiMo-V2.5-Pro - A pontuação fica perto da melhor aqui (5.5 vs 6.0) e custa cerca de 4.9x menos que DeepSeek V4 Pro.
Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-04
6.0Pontuação média em todos os testes de benchmark.…
5.5Pontuação média em todos os testes de benchmark.…
Posição
#103
#123
Confiabilidade
9.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
Consistência
7.6A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
8.6A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
Testes corretos
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 5Resposta incorreta: 4Tempo esgotado: 3Não seguiu as instruções: 1Tempo de resposta (médio)65.21sTempo de resposta (máx.)358.35sTempo de resposta (total)1304.19sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 11Não seguiu as instruções: 4Tempo de resposta (médio)1.78sTempo de resposta (máx.)8.32sTempo de resposta (total)37.42sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Taxa de acerto por tentativa
52.4%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
39.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
Testes instáveis
6Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
4Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Execuções totais
63Execuções totais…
63Execuções totais…
Custo por resultado
2.869Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
0.648Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
Custo total
$0.079Custo total (preço atual)…
$0.017Custo total (preço atual)…
Preço de entrada
$0.435 / 1MPreço de entrada…
$0.435 / 1MPreço de entrada…
Preço de saída
$0.870 / 1MPreço de saída…
$0.870 / 1MPreço de saída…
Total de tokens de entrada
32,240Total de tokens de entrada…
30,724Total de tokens de entrada…
Tokens de saída
12,250Tokens de saída…
3,043Tokens de saída…
Tokens de raciocínio
72,257Tokens de raciocínio…
0Tokens de raciocínio…
Tempo de resposta (médio)
65.21sTempo de resposta (médio)…
1.78sTempo de resposta (médio)…
Tempo de resposta (máx.)
358.35sTempo de resposta (máx.)…
8.32sTempo de resposta (máx.)…
Tempo de resposta (total)
1304.19sTempo de resposta (total)…
37.42sTempo de resposta (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
6.4Pontuação média em todos os testes de benchmark.…
7.9A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
58.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Resposta incorreta: 1Tempo de resposta (médio)16.53sTempo de resposta (máx.)39.91sTempo de resposta (total)66.11sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.3Pontuação média em todos os testes de benchmark.…
8.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
8.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 1Tempo de resposta (médio)2.67sTempo de resposta (máx.)8.32sTempo de resposta (total)10.67sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.3Pontuação média em todos os testes de benchmark.…
6.4A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
11.1%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Erro de API: 1Tempo de resposta (médio)118.23sTempo de resposta (máx.)184.68sTempo de resposta (total)236.45sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
4.3Pontuação média em todos os testes de benchmark.…
7.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
22.2%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Não seguiu as instruções: 1Tempo de resposta (médio)1.41sTempo de resposta (máx.)2.39sTempo de resposta (total)4.23sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)65.02sTempo de resposta (máx.)65.02sTempo de resposta (total)65.02sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.54sTempo de resposta (máx.)3.54sTempo de resposta (total)3.54sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7.3Pontuação média em todos os testes de benchmark.…
5.9A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
83.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)23.62sTempo de resposta (máx.)36.44sTempo de resposta (total)47.24sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.32sTempo de resposta (máx.)1.42sTempo de resposta (total)2.64sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
2.9Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
11.1%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)205.66sTempo de resposta (máx.)358.35sTempo de resposta (total)616.97sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.3Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
33.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)877msTempo de resposta (máx.)904msTempo de resposta (total)2.63sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.1Pontuação média em todos os testes de benchmark.…
3.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)25.09sTempo de resposta (máx.)25.09sTempo de resposta (total)25.09sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
4.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.58sTempo de resposta (máx.)2.58sTempo de resposta (total)2.58sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)41.16sTempo de resposta (máx.)43.56sTempo de resposta (total)82.32sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.4Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
50.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.03sTempo de resposta (máx.)1.10sTempo de resposta (total)2.06sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.9Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
55.6%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Resposta incorreta: 1Tempo de resposta (médio)34.84sTempo de resposta (máx.)76.46sTempo de resposta (total)104.52sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.7Pontuação média em todos os testes de benchmark.…
4.7A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
77.8%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)1.30sTempo de resposta (máx.)1.61sTempo de resposta (total)3.90sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)21.33sTempo de resposta (máx.)21.33sTempo de resposta (total)21.33sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.30sTempo de resposta (máx.)3.30sTempo de resposta (total)3.30sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)39.14sTempo de resposta (máx.)39.14sTempo de resposta (total)39.14sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.89sTempo de resposta (máx.)1.89sTempo de resposta (total)1.89sUm teste é totalmente aprovado apenas quando todas as execuções passam.…