Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Gemini 3 Flash Preview 1

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Total de testes 22 Testes errados 1 Custo total $0.742 Tempo de resposta (médio) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Total de testes 22 Testes errados 2 Custo total $1.976 Tempo de resposta (médio) 15.1s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Total de testes 22 Testes errados 2 Custo total $1.361 Tempo de resposta (médio) 21.5s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Total de testes 22 Testes errados 3 Custo total $1.253 Tempo de resposta (médio) 10.1s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Total de testes 22 Testes errados 3 Custo total $0.642 Tempo de resposta (médio) 8.20s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Total de testes 22 Testes errados 3 Custo total $0.433 Tempo de resposta (médio) 5.55s
#94	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
Total de testes 19 Testes errados 3 Custo total $0.505 Tempo de resposta (médio) 3.02s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Total de testes 22 Testes errados 4 Custo total $0.971 Tempo de resposta (médio) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Total de testes 22 Testes errados 4 Custo total $1.316 Tempo de resposta (médio) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Total de testes 22 Testes errados 4 Custo total $1.234 Tempo de resposta (médio) 11.7s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
Total de testes 22 Testes errados 4 Custo total $1.116 Tempo de resposta (médio) 40.6s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Total de testes 22 Testes errados 4 Custo total $4.137 Tempo de resposta (médio) 38.4s
#14	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
Total de testes 22 Testes errados 4 Custo total $1.931 Tempo de resposta (médio) 12.5s
#15	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
Total de testes 22 Testes errados 4 Custo total $1.477 Tempo de resposta (médio) 7.61s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Total de testes 16 Testes errados 3 Custo total $2.310 Tempo de resposta (médio) 68.1s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)