Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

Inception: Mercury 2 vs Xiaomi: MiMo-V2.5-Pro

Resumo

Comparação benchmark Mercury 2 vs MiMo-V2.5-Pro: MiMo-V2.5-Pro lidera na pontuação média com 5.5 vs 4.6. Mercury 2 tem menor custo de benchmark com $0.011 vs $0.017. Mercury 2 é mais rápido com 653ms vs 1.78s, com taxas de acerto de 23.8% vs 39.7%.

Modelo recomendado: Mercury 2 - Oferece o melhor compromisso geral: pontuação competitiva (4.6), custo menor que MiMo-V2.5-Pro e tempo de resposta equilibrado.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-18

Métrica Mercury 2 Mercury 2 none Lançamento: 2026-02-24 MiMo-V2.5-Pro MiMo-V2.5-Pro none Lançamento: 2026-04-22
Pontuação 4.6 5.5
Posição #151 #119
Confiabilidade 10.0 10.0
Consistência 9.2 8.6
Testes corretos
Taxa de acerto por tentativa 23.8% 39.7%
Testes instáveis 2 4
Execuções totais 63 63
Custo por resultado 0.259 0.648
Custo total $0.011 $0.017
Preço de entrada $0.250 / 1M $0.435 / 1M
Preço de saída $0.750 / 1M $0.870 / 1M
Total de tokens de entrada 28,113 30,724
Tokens de saída 4,439 3,043
Tokens de raciocínio 0 0
Tempo de resposta (médio) 653ms 1.78s
Tempo de resposta (máx.) 1.43s 8.32s
Tempo de resposta (total) 13.72s 37.42s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Mercury 2

none
Custo
$0.002
Tempo
1.8s
Tokens
1,514 tok

#119 MiMo-V2.5-Pro

none
Custo
$0.004
Tempo
46.4s
Tokens
4,025 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 3.0 10.0 0.0% 0 483ms 631 286 0
MiMo-V2.5-Pro 3.3 8.1 8.3% 1 2.67s 645 994 0
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 3.4 9.6 0.0% 0 1.03s 7,229 3,088 0
MiMo-V2.5-Pro 4.3 7.8 22.2% 1 1.41s 6,559 485 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 3.0 10.0 0.0% 0 606ms 4,821 131 0
MiMo-V2.5-Pro 3.0 10.0 0.0% 0 3.54s 4,695 596 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 7.3 5.9 83.3% 1 667ms 6,362 180 0
MiMo-V2.5-Pro 10.0 10.0 100.0% 0 1.32s 7,758 249 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 5.3 7.2 44.4% 1 534ms 784 46 0
MiMo-V2.5-Pro 5.3 10.0 33.3% 0 877ms 753 27 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 4.8 10.0 0.0% 0 628ms 495 159 0
MiMo-V2.5-Pro 4.0 10.0 0.0% 0 2.58s 498 87 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 6.5 10.0 50.0% 0 551ms 691 82 0
MiMo-V2.5-Pro 6.4 10.0 50.0% 0 1.03s 684 66 0
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 3.1 10.0 0.0% 0 535ms 694 251 0
MiMo-V2.5-Pro 6.7 4.7 77.8% 2 1.30s 678 267 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 10.0 10.0 100.0% 0 1.27s 6,193 197 0
MiMo-V2.5-Pro 10.0 10.0 100.0% 0 3.30s 8,238 258 0
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Mercury 2 3.0 10.0 0.0% 0 548ms 213 19 0
MiMo-V2.5-Pro 3.0 10.0 0.0% 0 1.89s 216 14 0

Comparação rápida

Trocar par de comparação