Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↓.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Gemini 3 Flash Preview 1

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#16	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Total de testes 22 Testes errados 7 Custo total $1.357 Tempo de resposta (médio) 25.0s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Total de testes 22 Testes errados 5 Custo total $3.478 Tempo de resposta (médio) 17.2s
#18	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Total de testes 22 Testes errados 7 Custo total $1.533 Tempo de resposta (médio) 23.1s
#19	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Total de testes 22 Testes errados 6 Custo total $1.143 Tempo de resposta (médio) 67.5s
#20	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
Total de testes 22 Testes errados 6 Custo total $0.935 Tempo de resposta (médio) 15.6s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Total de testes 22 Testes errados 8 Custo total $0.951 Tempo de resposta (médio) 22.6s
#22	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
Total de testes 22 Testes errados 6 Custo total $1.928 Tempo de resposta (médio) 61.7s
#23	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Total de testes 22 Testes errados 6 Custo total $0.922 Tempo de resposta (médio) 12.5s
#24	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Total de testes 22 Testes errados 9 Custo total $0.647 Tempo de resposta (médio) 11.5s
#25	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
Total de testes 22 Testes errados 7 Custo total $0.643 Tempo de resposta (médio) 21.2s
#26	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Total de testes 22 Testes errados 10 Custo total $0.237 Tempo de resposta (médio) 27.6s
#27	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Total de testes 22 Testes errados 10 Custo total $1.694 Tempo de resposta (médio) 31.5s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Total de testes 22 Testes errados 7 Custo total $1.006 Tempo de resposta (médio) 64.2s
#29	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Total de testes 22 Testes errados 8 Custo total $0.515 Tempo de resposta (médio) 26.4s
#30	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Total de testes 22 Testes errados 8 Custo total $0.604 Tempo de resposta (médio) 7.65s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)