Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Granite 4.1 8B 13

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
Total de testes 22 Testes errados 20 Custo total $0.007 Tempo de resposta (médio) 1.45s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
Total de testes 19 Testes errados 17 Custo total $0.000 Tempo de resposta (médio) 728ms
#210	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
Total de testes 16 Testes errados 14 Custo total $0.001 Tempo de resposta (médio) 782ms
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Total de testes 22 Testes errados 19 Custo total $0.036 Tempo de resposta (médio) 82.2s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
Total de testes 19 Testes errados 16 Custo total $0.008 Tempo de resposta (médio) 1.62s
#161	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
Total de testes 22 Testes errados 18 Custo total $0.061 Tempo de resposta (médio) 5.52s
#162	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
Total de testes 22 Testes errados 18 Custo total $0.016 Tempo de resposta (médio) 8.58s
#169	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Total de testes 22 Testes errados 18 Custo total $0.021 Tempo de resposta (médio) 19.2s
#171	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Total de testes 22 Testes errados 18 Custo total $0.000 Tempo de resposta (médio) 29.9s
#180	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Total de testes 22 Testes errados 18 Custo total $0.041 Tempo de resposta (médio) 2.57s
#187	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
Total de testes 22 Testes errados 18 Custo total $0.032 Tempo de resposta (médio) 9.61s
#189	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Total de testes 22 Testes errados 18 Custo total $0.030 Tempo de resposta (médio) 829ms
#194	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
Total de testes 22 Testes errados 18 Custo total $0.166 Tempo de resposta (médio) 142.6s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Total de testes 21 Testes errados 17 Custo total $0.008 Tempo de resposta (médio) 2.98s
#199	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
Total de testes 21 Testes errados 17 Custo total $0.003 Tempo de resposta (médio) 12.9s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)