Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Gemini 3 Flash Preview 1

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Total de testes 22 Testes errados 7 Custo total $1.006 Tempo de resposta (médio) 64.2s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
Total de testes 22 Testes errados 7 Custo total $0.391 Tempo de resposta (médio) 16.2s
#36	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Total de testes 22 Testes errados 7 Custo total $0.267 Tempo de resposta (médio) 51.5s
#37	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Total de testes 22 Testes errados 7 Custo total $0.405 Tempo de resposta (médio) 43.1s
#44	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Total de testes 22 Testes errados 7 Custo total $1.017 Tempo de resposta (médio) 18.7s
#59	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
Total de testes 22 Testes errados 7 Custo total $0.197 Tempo de resposta (médio) 4.52s
#79	Gemini 3.5 Flash none	Google	3	7.0	$1.079	15/22	9.93s
Total de testes 22 Testes errados 7 Custo total $1.079 Tempo de resposta (médio) 9.93s
#49	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Total de testes 21 Testes errados 7 Custo total $0.323 Tempo de resposta (médio) 23.0s
#100	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
Total de testes 21 Testes errados 7 Custo total $0.018 Tempo de resposta (médio) 16.3s
#133	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Total de testes 21 Testes errados 7 Custo total $0.385 Tempo de resposta (médio) 9.05s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Total de testes 22 Testes errados 8 Custo total $0.951 Tempo de resposta (médio) 22.6s
#29	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Total de testes 22 Testes errados 8 Custo total $0.515 Tempo de resposta (médio) 26.4s
#30	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Total de testes 22 Testes errados 8 Custo total $0.604 Tempo de resposta (médio) 7.65s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Total de testes 22 Testes errados 8 Custo total $0.970 Tempo de resposta (médio) 62.7s
#34	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Total de testes 22 Testes errados 8 Custo total $1.055 Tempo de resposta (médio) 11.3s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)