Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

1585

Modelo mais afetado

Granite 4.1 8B 13

Categorias

Na categoria Específico do domínio421 Na categoria Truques anti-IA293 Na categoria Programação259 Na categoria Resolução de quebra-cabeças204 Na categoria Conhecimentos gerais172 Na categoria Combinado69 Na categoria Inteligência geral62 Na categoria Seguimento de instruções61 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

215/215

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Total de testes 22 Testes errados 9 Custo total $0.317 Tempo de resposta (médio) 46.4s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Total de testes 22 Testes errados 9 Custo total $0.779 Tempo de resposta (médio) 47.4s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
Total de testes 22 Testes errados 9 Custo total $0.535 Tempo de resposta (médio) 46.8s
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Total de testes 22 Testes errados 9 Custo total $0.085 Tempo de resposta (médio) 2.95s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
Total de testes 22 Testes errados 9 Custo total $0.746 Tempo de resposta (médio) 58.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
Total de testes 22 Testes errados 9 Custo total $0.646 Tempo de resposta (médio) 16.7s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Total de testes 22 Testes errados 8 Custo total $0.951 Tempo de resposta (médio) 22.6s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
Total de testes 22 Testes errados 8 Custo total $0.584 Tempo de resposta (médio) 9.48s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Total de testes 22 Testes errados 8 Custo total $0.515 Tempo de resposta (médio) 26.4s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Total de testes 22 Testes errados 8 Custo total $0.604 Tempo de resposta (médio) 7.65s
#35	GLM 5.2 high	Z.ai	3	8.0	$0.817	14/22	62.7s
Total de testes 22 Testes errados 8 Custo total $0.817 Tempo de resposta (médio) 62.7s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Total de testes 22 Testes errados 8 Custo total $1.055 Tempo de resposta (médio) 11.3s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Total de testes 22 Testes errados 8 Custo total $0.234 Tempo de resposta (médio) 48.5s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Total de testes 22 Testes errados 8 Custo total $0.676 Tempo de resposta (médio) 7.11s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Total de testes 22 Testes errados 8 Custo total $2.057 Tempo de resposta (médio) 25.9s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)