Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Granite 4.1 8B 13

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Total de testes 21 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 2.76s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Total de testes 19 Testes errados 15 Custo total $0.009 Tempo de resposta (médio) 2.89s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Total de testes 19 Testes errados 15 Custo total $0.000 Tempo de resposta (médio) 17.1s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
Total de testes 22 Testes errados 17 Custo total $0.044 Tempo de resposta (médio) 36.8s
#160	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Total de testes 22 Testes errados 17 Custo total $0.008 Tempo de resposta (médio) 1.55s
#165	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Total de testes 22 Testes errados 17 Custo total $0.022 Tempo de resposta (médio) 1.20s
#166	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Total de testes 22 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 9.12s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Total de testes 22 Testes errados 17 Custo total $0.096 Tempo de resposta (médio) 10.8s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Total de testes 22 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 4.62s
#172	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Total de testes 22 Testes errados 17 Custo total $0.163 Tempo de resposta (médio) 41.3s
#174	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Total de testes 22 Testes errados 17 Custo total $0.010 Tempo de resposta (médio) 1.99s
#177	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
Total de testes 22 Testes errados 17 Custo total $0.008 Tempo de resposta (médio) 5.97s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Total de testes 22 Testes errados 17 Custo total $0.067 Tempo de resposta (médio) 12.2s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Total de testes 22 Testes errados 17 Custo total $0.340 Tempo de resposta (médio) 68.3s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
Total de testes 21 Testes errados 16 Custo total $0.000 Tempo de resposta (médio) 1.22s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)