Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

Falhas totais

1585

Modelo mais afetado

LFM2-24B-A2B 9

Categorias

Na categoria Específico do domínio421 Na categoria Truques anti-IA293 Na categoria Programação259 Na categoria Resolução de quebra-cabeças204 Na categoria Conhecimentos gerais172 Na categoria Combinado69 Na categoria Inteligência geral62 Na categoria Seguimento de instruções61 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

215/215

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#156	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.042	5/22	36.8s
Total de testes 22 Testes errados 17 Custo total $0.042 Tempo de resposta (médio) 36.8s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Total de testes 22 Testes errados 14 Custo total $0.048 Tempo de resposta (médio) 8.42s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 9.88s
#153	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Total de testes 21 Testes errados 14 Custo total $0.045 Tempo de resposta (médio) 2.27s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Total de testes 21 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 11.9s
#151	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Total de testes 21 Testes errados 13 Custo total $0.052 Tempo de resposta (médio) 2.99s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
Total de testes 22 Testes errados 15 Custo total $0.077 Tempo de resposta (médio) 15.9s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Total de testes 18 Testes errados 8 Custo total $2.044 Tempo de resposta (médio) 62.0s
#148	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
Total de testes 22 Testes errados 16 Custo total $0.247 Tempo de resposta (médio) 12.9s
#147	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Total de testes 21 Testes errados 12 Custo total $0.041 Tempo de resposta (médio) 4.03s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
Total de testes 22 Testes errados 14 Custo total $0.055 Tempo de resposta (médio) 52.0s
#145	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Total de testes 22 Testes errados 15 Custo total $0.397 Tempo de resposta (médio) 2.07s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Total de testes 22 Testes errados 15 Custo total $0.184 Tempo de resposta (médio) 19.6s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Total de testes 22 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 137.1s
#142	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Total de testes 22 Testes errados 16 Custo total $0.095 Tempo de resposta (médio) 1.53s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)