Navegação
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Modelos comparados

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-04

Métrica Hunter Alpha Hunter Alpha medium Lançamento: 2026-03-11 MiMo-V2-Pro MiMo-V2-Pro medium Lançamento: 2026-03-18 Hunter Alpha Hunter Alpha none Lançamento: 2026-03-11 MiMo-V2-Pro MiMo-V2-Pro none Lançamento: 2026-03-18
Pontuação 7.0 8.0 5.9 5.8
Posição #43 #24 #63 #65
Consistência 7.2 8.5 8.1 8.5
Testes corretos
Taxa de acerto por tentativa 68.6% 76.5% 49.0% 45.1%
Testes instáveis 6 3 4 3
Execuções totais 51 45 51 51
Custo por resultado 0.000 1.110 0.000 0.659
Custo total $0.000 $0.123 $0.000 $0.040
Preço de entrada $0.000 / 1M $1.000 / 1M $0.000 / 1M $1.000 / 1M
Preço de saída $0.000 / 1M $3.000 / 1M $0.000 / 1M $3.000 / 1M
Tokens de saída 4,724 1,875 2,278 1,721
Tokens de raciocínio 17,921 26,959 0 0
Tempo de resposta (médio) 10.33s 9.78s 4.58s 2.31s
Tempo de resposta (máx.) 30.53s 64.71s 15.17s 6.58s
Tempo de resposta (total) 175.60s 156.45s 77.92s 39.25s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Hunter Alpha 7.3 5.8 83.3% 2 4.75s 479 1,103
MiMo-V2-Pro 10.0 10.0 100.0% 0 3.06s 223 1,107
Hunter Alpha 3.5 8.0 16.7% 1 3.81s 779 0
MiMo-V2-Pro 3.5 8.0 16.7% 1 1.80s 315 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Hunter Alpha 4.7 1.6 66.7% 1 30.53s 792 3,456
MiMo-V2-Pro 4.7 1.6 66.7% 1 64.71s 380 14,186
Hunter Alpha 3.0 10.0 0.0% 0 15.17s 379 0
MiMo-V2-Pro 3.0 10.0 0.0% 0 6.58s 333 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Hunter Alpha 10.0 10.0 100.0% 0 23.16s 1,488 8,017
MiMo-V2-Pro 7.3 5.8 83.3% 1 17.20s 260 7,484
Hunter Alpha 10.0 10.0 100.0% 0 8.49s 249 0
MiMo-V2-Pro 10.0 10.0 100.0% 0 1.39s 249 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Hunter Alpha 3.0 10.0 0.0% 0 10.52s 892 2,406
MiMo-V2-Pro 5.3 10.0 33.3% 0 6.00s 155 1,048
Hunter Alpha 5.3 10.0 33.3% 0 2.33s 27 0
MiMo-V2-Pro 5.3 7.2 44.4% 1 1.78s 26 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Hunter Alpha 7.0 3.7 66.7% 1 6.44s 116 260
MiMo-V2-Pro 10.0 10.0 100.0% 0 4.06s 198 424
Hunter Alpha 6.1 3.1 66.7% 1 2.71s 91 0
MiMo-V2-Pro 4.3 9.9 0.0% 0 2.44s 125 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Hunter Alpha 9.9 10.0 100.0% 0 4.18s 208 465
MiMo-V2-Pro 9.9 10.0 100.0% 0 3.36s 83 667
Hunter Alpha 6.4 10.0 50.0% 0 2.82s 69 0
MiMo-V2-Pro 6.5 10.0 50.0% 0 2.51s 69 0
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Hunter Alpha 6.1 4.7 66.7% 2 5.36s 441 1,310
MiMo-V2-Pro 7.0 7.2 55.6% 1 4.71s 313 1,179
Hunter Alpha 5.8 4.4 66.7% 2 3.06s 349 0
MiMo-V2-Pro 6.0 7.1 55.6% 1 1.83s 327 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Hunter Alpha 10.0 10.0 100.0% 0 17.33s 308 904
MiMo-V2-Pro 10.0 10.0 100.0% 0 8.19s 263 864
Hunter Alpha 10.0 10.0 100.0% 0 6.02s 335 0
MiMo-V2-Pro 10.0 10.0 100.0% 0 4.39s 277 0

Comparação rápida

Trocar par de comparação