Ranking de falhas por Resposta incorreta

Falhas AI BENCHY

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↓.

Modelos exibidos

Falhas totais

1204

Modelo mais afetado

Gemini 3 Flash Preview 1

Categorias

Na categoria Específico do domínio314 Na categoria Truques anti-IA245 Na categoria Programação194 Na categoria Resolução de quebra-cabeças147 Na categoria Conhecimentos gerais130 Na categoria Seguimento de instruções53 Na categoria Combinado52 Na categoria Análise e extração de dados35 Na categoria Inteligência geral32 Na categoria Chamada de ferramentas2

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Testes corretos	Tempo de resposta (médio)
#1	Gemini 3 Flash Preview medium	Google	1	9.8	20/21	18.6s
#2	Gemini 3.5 Flash high	Google	1	9.6	20/21	8.84s
#3	Gemini 3.5 Flash low	Google	2	9.4	19/21	3.27s
#4	Gemini 3.1 Pro Preview medium	Google	2	9.4	19/21	20.1s
#5	Qwen3.7 Max medium	Qwen	3	9.1	18/21	16.0s
#6	GPT-5.5 low	OpenAI	3	9.0	18/21	9.76s
#7	Gemini 3.5 Flash medium	Google	2	9.0	18/21	4.94s
#8	Claude Opus 4.7 none	Anthropic	3	8.9	16/19	3.02s
#9	GPT-5.5 medium	OpenAI	4	8.8	17/21	38.0s
#10	Claude Opus 4.8 medium	Anthropic	3	8.7	17/21	9.66s
#11	Claude Opus 4.7 medium	Anthropic	3	8.7	17/21	4.73s
#12	Gemini 3.1 Flash Lite Preview high	Google	2	8.6	13/16	68.1s
#13	Grok 4.20 Beta medium	X AI	3	8.5	14/18	9.75s
#14	Qwen3.6 Max Preview medium	Qwen	5	8.5	16/21	59.6s
#15	GPT-5.3-Codex medium	OpenAI	4	8.4	15/21	16.2s

Falhas por Resposta incorreta

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)