Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Total de testes 22 Testes errados 14 Custo total $0.349 Tempo de resposta (médio) 1.65s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Total de testes 22 Testes errados 13 Custo total $0.046 Tempo de resposta (médio) 1.75s
#120	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Total de testes 22 Testes errados 12 Custo total $0.047 Tempo de resposta (médio) 1.86s
#174	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Total de testes 22 Testes errados 17 Custo total $0.010 Tempo de resposta (médio) 1.99s
#139	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Total de testes 22 Testes errados 15 Custo total $0.397 Tempo de resposta (médio) 2.07s
#83	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Total de testes 22 Testes errados 11 Custo total $0.524 Tempo de resposta (médio) 2.16s
#147	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Total de testes 21 Testes errados 14 Custo total $0.045 Tempo de resposta (médio) 2.27s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Total de testes 22 Testes errados 11 Custo total $0.544 Tempo de resposta (médio) 2.36s
#157	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Total de testes 21 Testes errados 13 Custo total $0.021 Tempo de resposta (médio) 2.44s
#180	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Total de testes 22 Testes errados 18 Custo total $0.041 Tempo de resposta (médio) 2.57s
#88	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Total de testes 22 Testes errados 8 Custo total $0.300 Tempo de resposta (médio) 2.65s
#78	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
Total de testes 22 Testes errados 12 Custo total $0.093 Tempo de resposta (médio) 2.72s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Total de testes 21 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 2.76s
#170	GLM 5 Turbo none	Z.ai	13	5.1	$0.047	6/21	2.82s
Total de testes 21 Testes errados 15 Custo total $0.047 Tempo de resposta (médio) 2.82s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Total de testes 19 Testes errados 15 Custo total $0.009 Tempo de resposta (médio) 2.89s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)