Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↓.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Gemini 3 Flash Preview 1

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Total de testes 22 Testes errados 8 Custo total $0.970 Tempo de resposta (médio) 62.7s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
Total de testes 22 Testes errados 7 Custo total $0.391 Tempo de resposta (médio) 16.2s
#34	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Total de testes 22 Testes errados 8 Custo total $1.055 Tempo de resposta (médio) 11.3s
#35	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Total de testes 22 Testes errados 8 Custo total $0.234 Tempo de resposta (médio) 48.5s
#36	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Total de testes 22 Testes errados 7 Custo total $0.267 Tempo de resposta (médio) 51.5s
#37	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Total de testes 22 Testes errados 7 Custo total $0.405 Tempo de resposta (médio) 43.1s
#38	GLM 5.2 medium	Z.ai	3	7.8	$0.222	15/21	23.3s
Total de testes 21 Testes errados 6 Custo total $0.222 Tempo de resposta (médio) 23.3s
#39	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Total de testes 22 Testes errados 8 Custo total $0.676 Tempo de resposta (médio) 7.11s
#40	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Total de testes 22 Testes errados 8 Custo total $2.057 Tempo de resposta (médio) 25.9s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Total de testes 22 Testes errados 6 Custo total $2.077 Tempo de resposta (médio) 12.7s
#42	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
Total de testes 21 Testes errados 6 Custo total $0.307 Tempo de resposta (médio) 33.5s
#43	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Total de testes 22 Testes errados 9 Custo total $3.059 Tempo de resposta (médio) 34.3s
#44	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Total de testes 22 Testes errados 7 Custo total $1.017 Tempo de resposta (médio) 18.7s
#45	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.042	13/22	49.7s
Total de testes 22 Testes errados 9 Custo total $0.042 Tempo de resposta (médio) 49.7s
#46	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Total de testes 22 Testes errados 12 Custo total $0.200 Tempo de resposta (médio) 79.1s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)