Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

1585

Modelo mais afetado

Gemini 3.6 Flash 1

Categorias

Na categoria Específico do domínio421 Na categoria Truques anti-IA293 Na categoria Programação259 Na categoria Resolução de quebra-cabeças204 Na categoria Conhecimentos gerais172 Na categoria Combinado69 Na categoria Inteligência geral62 Na categoria Seguimento de instruções61 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

215/215

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Total de testes 22 Testes errados 9 Custo total $3.059 Tempo de resposta (médio) 34.3s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Total de testes 22 Testes errados 9 Custo total $0.041 Tempo de resposta (médio) 49.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Total de testes 22 Testes errados 9 Custo total $0.774 Tempo de resposta (médio) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Total de testes 22 Testes errados 9 Custo total $0.571 Tempo de resposta (médio) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Total de testes 22 Testes errados 9 Custo total $0.519 Tempo de resposta (médio) 5.31s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Total de testes 22 Testes errados 9 Custo total $1.627 Tempo de resposta (médio) 111.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Total de testes 22 Testes errados 9 Custo total $0.115 Tempo de resposta (médio) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Total de testes 22 Testes errados 9 Custo total $0.117 Tempo de resposta (médio) 4.27s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Total de testes 22 Testes errados 9 Custo total $1.166 Tempo de resposta (médio) 4.91s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Total de testes 22 Testes errados 9 Custo total $0.317 Tempo de resposta (médio) 46.4s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Total de testes 22 Testes errados 9 Custo total $0.779 Tempo de resposta (médio) 47.4s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
Total de testes 22 Testes errados 9 Custo total $0.535 Tempo de resposta (médio) 46.8s
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Total de testes 22 Testes errados 9 Custo total $0.085 Tempo de resposta (médio) 2.95s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
Total de testes 22 Testes errados 9 Custo total $0.746 Tempo de resposta (médio) 58.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
Total de testes 22 Testes errados 9 Custo total $0.646 Tempo de resposta (médio) 16.7s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)