Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

Step 3.5 Flash 4

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#52	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.751	12/22	84.2s
Total de testes 22 Testes errados 10 Custo total $0.751 Tempo de resposta (médio) 84.2s
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Total de testes 22 Testes errados 19 Custo total $0.036 Tempo de resposta (médio) 82.2s
#46	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Total de testes 22 Testes errados 12 Custo total $0.200 Tempo de resposta (médio) 79.1s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Total de testes 22 Testes errados 5 Custo total $1.707 Tempo de resposta (médio) 76.5s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Total de testes 22 Testes errados 8 Custo total $0.163 Tempo de resposta (médio) 75.4s
#47	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
Total de testes 22 Testes errados 10 Custo total $0.286 Tempo de resposta (médio) 75.0s
#108	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Total de testes 22 Testes errados 11 Custo total $0.103 Tempo de resposta (médio) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Total de testes 22 Testes errados 11 Custo total $0.078 Tempo de resposta (médio) 68.6s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Total de testes 22 Testes errados 17 Custo total $0.340 Tempo de resposta (médio) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Total de testes 16 Testes errados 3 Custo total $2.310 Tempo de resposta (médio) 68.1s
#19	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Total de testes 22 Testes errados 6 Custo total $1.143 Tempo de resposta (médio) 67.5s
#86	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Total de testes 22 Testes errados 11 Custo total $1.207 Tempo de resposta (médio) 64.7s
#72	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Total de testes 22 Testes errados 8 Custo total $1.046 Tempo de resposta (médio) 64.2s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Total de testes 22 Testes errados 7 Custo total $1.006 Tempo de resposta (médio) 64.2s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Total de testes 22 Testes errados 8 Custo total $0.970 Tempo de resposta (médio) 62.7s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)