Comparação benchmark Gemini 3.5 Flash vs MiMo-V2.5: Gemini 3.5 Flash lidera na pontuação média com 6.8 vs 6.7. MiMo-V2.5 tem menor custo de benchmark com $0.061 vs $0.108. Gemini 3.5 Flash é mais rápido com 1.57s vs 27.11s, com taxas de acerto de 68.3% vs 69.8%.
Modelo recomendado: Gemini 3.5 Flash - Tem a melhor pontuação aqui (6.8) e responde cerca de 17.2x mais rápido que MiMo-V2.5.
Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-02
6.8Pontuação média em todos os testes de benchmark.…
6.7Pontuação média em todos os testes de benchmark.…
Posição
#74
#79
Confiabilidade
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
Consistência
9.6A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
8.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
6.5Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
50.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)892msTempo de resposta (máx.)1.38sTempo de resposta (total)3.57sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.14sTempo de resposta (máx.)12.41sTempo de resposta (total)16.57sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.6Pontuação média em todos os testes de benchmark.…
9.9A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
33.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)2.75sTempo de resposta (máx.)5.51sTempo de resposta (total)8.26sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.2Pontuação média em todos os testes de benchmark.…
4.7A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)97.14sTempo de resposta (máx.)162.44sTempo de resposta (total)291.41sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)3.56sTempo de resposta (máx.)3.56sTempo de resposta (total)3.56sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)16.86sTempo de resposta (máx.)16.86sTempo de resposta (total)16.86sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.66sTempo de resposta (máx.)2.11sTempo de resposta (total)3.32sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
2.7Pontuação média em todos os testes de benchmark.…
5.7A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
16.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Resposta incorreta: 1Tempo de resposta (médio)6.33sTempo de resposta (máx.)7.45sTempo de resposta (total)12.67sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)899msTempo de resposta (máx.)1.04sTempo de resposta (total)2.70sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.3Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
33.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Resposta incorreta: 1Tempo de resposta (médio)34.53sTempo de resposta (máx.)86.93sTempo de resposta (total)103.59sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)922msTempo de resposta (máx.)922msTempo de resposta (total)922msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.4Pontuação média em todos os testes de benchmark.…
2.5A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.37sTempo de resposta (máx.)5.37sTempo de resposta (total)5.37sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.4Pontuação média em todos os testes de benchmark.…
5.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)893msTempo de resposta (máx.)964msTempo de resposta (total)1.79sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
9.9Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.80sTempo de resposta (máx.)1.81sTempo de resposta (total)3.60sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.45sTempo de resposta (máx.)2.30sTempo de resposta (total)4.36sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
8.2Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
88.9%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)20.25sTempo de resposta (máx.)57.93sTempo de resposta (total)60.76sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.79sTempo de resposta (máx.)2.79sTempo de resposta (total)2.79sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.29sTempo de resposta (máx.)7.29sTempo de resposta (total)7.29sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.76sTempo de resposta (máx.)1.76sTempo de resposta (total)1.76sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)51.29sTempo de resposta (máx.)51.29sTempo de resposta (total)51.29sUm teste é totalmente aprovado apenas quando todas as execuções passam.…