AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
Your ad here

Falhas por categoria AI BENCHY

Combinado
Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Combinado, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

21

Falhas totais

21

Modelo mais afetado

Qwen3.5-35B-A3B 1
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação da categoria Testes corretos Tempo de resposta (médio)
#42 Qwen3.5-35B-A3B none Qwen 1 10.0 0/1 47.4s
#40 Qwen3.5-122B-A10B none Qwen 1 10.0 0/1 46.0s
#48 Qwen3 Coder Next none Qwen 1 10.0 0/1 45.1s
#46 Kimi K2.5 none Moonshot AI 1 10.0 0/1 19.2s
#17 Gemini 3.1 Flash Lite Preview low Google 1 10.0 0/1 11.9s
#6 Gemini 3 Pro Preview medium Google 1 10.0 0/1 10.4s
#41 Qwen3.5-27B none Qwen 1 10.0 0/1 9.39s
#45 Trinity Large Preview none Arcee AI 1 10.0 0/1 8.91s
#47 GPT-4o-mini none OpenAI 1 10.0 0/1 7.58s
#29 Qwen3.5 Plus 2026-02-15 none Qwen 1 10.0 0/1 6.65s
#37 Qwen3.5-Flash none Qwen 1 10.0 0/1 6.22s
#31 GLM 5 none Z.ai 1 10.0 0/1 4.98s
#38 Gemini 2.5 Flash none Google 1 10.0 0/1 4.39s
#50 Qwen3 Coder Next medium Qwen 1 10.0 0/1 4.28s
#20 Gemini 3 Flash Preview none Google 1 10.0 0/1 3.56s
#53 Grok 4.1 Fast none X AI 1 10.0 0/1 3.33s
#5 Gemini 3 Flash Preview low Google 1 10.0 0/1 3.27s
#22 Gemini 3.1 Flash Lite Preview none Google 1 10.0 0/1 3.20s
#44 GPT-5.4 none OpenAI 1 10.0 0/1 2.89s
#54 MiMo-V2-Flash none Xiaomi 1 10.0 0/1 2.87s
#51 Mercury 2 none Inception 1 10.0 0/1 606ms

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs pontuação média

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado