Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Gemini 3 Flash Preview 1

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#133	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Total de testes 21 Testes errados 7 Custo total $0.385 Tempo de resposta (médio) 9.05s
#135	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Total de testes 21 Testes errados 10 Custo total $0.048 Tempo de resposta (médio) 56.6s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Total de testes 22 Testes errados 4 Custo total $0.971 Tempo de resposta (médio) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Total de testes 22 Testes errados 4 Custo total $1.316 Tempo de resposta (médio) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Total de testes 22 Testes errados 4 Custo total $1.234 Tempo de resposta (médio) 11.7s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Total de testes 22 Testes errados 4 Custo total $4.137 Tempo de resposta (médio) 38.4s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
Total de testes 22 Testes errados 6 Custo total $0.920 Tempo de resposta (médio) 17.0s
#16	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Total de testes 22 Testes errados 7 Custo total $1.357 Tempo de resposta (médio) 25.0s
#23	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Total de testes 22 Testes errados 6 Custo total $0.922 Tempo de resposta (médio) 12.5s
#27	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Total de testes 22 Testes errados 10 Custo total $1.694 Tempo de resposta (médio) 31.5s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Total de testes 22 Testes errados 7 Custo total $1.006 Tempo de resposta (médio) 64.2s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
Total de testes 22 Testes errados 7 Custo total $0.391 Tempo de resposta (médio) 16.2s
#40	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Total de testes 22 Testes errados 8 Custo total $2.057 Tempo de resposta (médio) 25.9s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Total de testes 22 Testes errados 6 Custo total $2.077 Tempo de resposta (médio) 12.7s
#49	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Total de testes 21 Testes errados 7 Custo total $0.323 Tempo de resposta (médio) 23.0s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)