Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

1585

Modelo mais afetado

Gemini 3.6 Flash 1

Categorias

Na categoria Específico do domínio421 Na categoria Truques anti-IA293 Na categoria Programação259 Na categoria Resolução de quebra-cabeças204 Na categoria Conhecimentos gerais172 Na categoria Combinado69 Na categoria Inteligência geral62 Na categoria Seguimento de instruções61 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

215/215

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Total de testes 22 Testes errados 13 Custo total $0.068 Tempo de resposta (médio) 47.9s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Total de testes 22 Testes errados 13 Custo total $0.017 Tempo de resposta (médio) 6.20s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Total de testes 22 Testes errados 13 Custo total $0.019 Tempo de resposta (médio) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Total de testes 22 Testes errados 13 Custo total $0.046 Tempo de resposta (médio) 1.75s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Total de testes 22 Testes errados 13 Custo total $0.114 Tempo de resposta (médio) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Total de testes 22 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 137.1s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
Total de testes 22 Testes errados 13 Custo total $0.026 Tempo de resposta (médio) 55.1s
#151	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Total de testes 21 Testes errados 13 Custo total $0.052 Tempo de resposta (médio) 2.99s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Total de testes 21 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 11.9s
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Total de testes 21 Testes errados 13 Custo total $0.021 Tempo de resposta (médio) 2.44s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Total de testes 19 Testes errados 12 Custo total $0.547 Tempo de resposta (médio) 28.7s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Total de testes 22 Testes errados 14 Custo total $0.090 Tempo de resposta (médio) 4.76s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Total de testes 22 Testes errados 14 Custo total $0.548 Tempo de resposta (médio) 6.04s
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Total de testes 22 Testes errados 14 Custo total $0.066 Tempo de resposta (médio) 4.40s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Total de testes 22 Testes errados 14 Custo total $0.073 Tempo de resposta (médio) 25.3s

←

1 9 10 11 15

→

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)