Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Mercury 2 17

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Total de testes 21 Testes errados 13 Custo total $0.052 Tempo de resposta (médio) 2.99s
#147	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Total de testes 21 Testes errados 14 Custo total $0.045 Tempo de resposta (médio) 2.27s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Total de testes 22 Testes errados 14 Custo total $0.048 Tempo de resposta (médio) 8.42s
#152	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
Total de testes 22 Testes errados 15 Custo total $0.087 Tempo de resposta (médio) 10.7s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
Total de testes 22 Testes errados 16 Custo total $0.068 Tempo de resposta (médio) 4.12s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Total de testes 22 Testes errados 11 Custo total $0.387 Tempo de resposta (médio) 19.5s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Total de testes 22 Testes errados 11 Custo total $0.482 Tempo de resposta (médio) 20.8s
#71	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Total de testes 22 Testes errados 11 Custo total $0.106 Tempo de resposta (médio) 12.1s
#83	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Total de testes 22 Testes errados 11 Custo total $0.524 Tempo de resposta (médio) 2.16s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Total de testes 22 Testes errados 11 Custo total $0.476 Tempo de resposta (médio) 25.6s
#98	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Total de testes 22 Testes errados 10 Custo total $0.231 Tempo de resposta (médio) 7.82s
#117	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Total de testes 22 Testes errados 12 Custo total $0.249 Tempo de resposta (médio) 5.04s
#146	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Total de testes 21 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 11.9s
#148	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 9.88s
#156	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Total de testes 22 Testes errados 14 Custo total $0.015 Tempo de resposta (médio) 7.64s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)