Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Gemini 3 Flash Preview 1

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#131	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
Total de testes 18 Testes errados 4 Custo total $0.750 Tempo de resposta (médio) 9.75s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Total de testes 22 Testes errados 5 Custo total $1.707 Tempo de resposta (médio) 76.5s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Total de testes 22 Testes errados 5 Custo total $3.478 Tempo de resposta (médio) 17.2s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
Total de testes 22 Testes errados 6 Custo total $0.920 Tempo de resposta (médio) 17.0s
#19	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Total de testes 22 Testes errados 6 Custo total $1.143 Tempo de resposta (médio) 67.5s
#20	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
Total de testes 22 Testes errados 6 Custo total $0.935 Tempo de resposta (médio) 15.6s
#22	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
Total de testes 22 Testes errados 6 Custo total $1.928 Tempo de resposta (médio) 61.7s
#23	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Total de testes 22 Testes errados 6 Custo total $0.922 Tempo de resposta (médio) 12.5s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Total de testes 22 Testes errados 6 Custo total $2.077 Tempo de resposta (médio) 12.7s
#61	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Total de testes 22 Testes errados 6 Custo total $0.177 Tempo de resposta (médio) 6.28s
#38	GLM 5.2 medium	Z.ai	3	7.8	$0.222	15/21	23.3s
Total de testes 21 Testes errados 6 Custo total $0.222 Tempo de resposta (médio) 23.3s
#42	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
Total de testes 21 Testes errados 6 Custo total $0.307 Tempo de resposta (médio) 33.5s
#16	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Total de testes 22 Testes errados 7 Custo total $1.357 Tempo de resposta (médio) 25.0s
#18	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Total de testes 22 Testes errados 7 Custo total $1.533 Tempo de resposta (médio) 23.1s
#25	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
Total de testes 22 Testes errados 7 Custo total $0.643 Tempo de resposta (médio) 21.2s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)