Ranking de falhas por Sem resposta

Veja quais modelos de IA encontram Sem resposta com mais frequência para identificar riscos de confiabilidade antes de escolher.

Modelos exibidos

Falhas totais

Modelo mais afetado

Step 3.7 Flash 4

Categorias

Na categoria Combinado29 Na categoria Programação18 Na categoria Conhecimentos gerais12 Na categoria Específico do domínio8 Na categoria Análise e extração de dados5 Na categoria Truques anti-IA4 Na categoria Resolução de quebra-cabeças3 Na categoria Chamada de ferramentas2 Na categoria Seguimento de instruções2

64/64

Posição	Modelo	Empresa	Contagem de Sem resposta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#85	Step 3.7 Flash high	Stepfun	4	6.9	$1.207	11/22	64.7s
Total de testes 22 Testes errados 11 Custo total $1.207 Tempo de resposta (médio) 64.7s
#96	Qwen3.6 27B medium	Qwen	3	6.5	$0.779	10/22	106.3s
Total de testes 22 Testes errados 12 Custo total $0.779 Tempo de resposta (médio) 106.3s
#190	GLM 4.7 Flash medium	Z.ai	3	4.3	$0.166	4/22	142.6s
Total de testes 22 Testes errados 18 Custo total $0.166 Tempo de resposta (médio) 142.6s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Total de testes 22 Testes errados 5 Custo total $1.707 Tempo de resposta (médio) 76.5s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Total de testes 22 Testes errados 5 Custo total $3.478 Tempo de resposta (médio) 17.2s
#38	GLM 5.2 medium	Z.ai	2	7.8	$0.068	15/21	23.3s
Total de testes 21 Testes errados 6 Custo total $0.068 Tempo de resposta (médio) 23.3s
#76	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Total de testes 22 Testes errados 12 Custo total $0.600 Tempo de resposta (médio) 99.0s
#93	Gemma 4 26B A4B medium	Google	2	6.6	$0.082	14/22	103.8s
Total de testes 22 Testes errados 8 Custo total $0.082 Tempo de resposta (médio) 103.8s
#108	Claude Sonnet 5 none	Anthropic	2	6.3	$0.548	8/22	6.04s
Total de testes 22 Testes errados 14 Custo total $0.548 Tempo de resposta (médio) 6.04s
#115	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Total de testes 22 Testes errados 11 Custo total $0.837 Tempo de resposta (médio) 112.5s
#130	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
Total de testes 21 Testes errados 11 Custo total $0.683 Tempo de resposta (médio) 41.2s
#168	MiniMax M2.7 medium	Minimax	2	5.0	$0.163	5/22	41.3s
Total de testes 22 Testes errados 17 Custo total $0.163 Tempo de resposta (médio) 41.3s
#186	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	5/22	68.3s
Total de testes 22 Testes errados 17 Custo total $0.340 Tempo de resposta (médio) 68.3s
#194	Laguna Xs.2 medium	Poolside	2	4.1	$0.015	6/19	6.73s
Total de testes 19 Testes errados 13 Custo total $0.015 Tempo de resposta (médio) 6.73s
#200	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Total de testes 22 Testes errados 19 Custo total $0.036 Tempo de resposta (médio) 82.2s

1 2 3 4 5

→

Falhas por Sem resposta

Filtrar modelos

Melhores modelos por Contagem de Sem resposta

Contagem de Sem resposta vs Pontuação

Melhores modelos por Tempo de resposta (médio)