Ranking de falhas por Sem resposta

Veja quais modelos de IA encontram Sem resposta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Nemotron 3 Nano Omni 30b A3b Reasoning 1

Categorias

Na categoria Combinado29 Na categoria Programação18 Na categoria Conhecimentos gerais13 Na categoria Análise e extração de dados8 Na categoria Específico do domínio8 Na categoria Truques anti-IA4 Na categoria Resolução de quebra-cabeças3 Na categoria Chamada de ferramentas2 Na categoria Seguimento de instruções2

67/67

Posição	Modelo	Empresa	Contagem de Sem resposta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#155	Kimi K2.5 none	Moonshot AI	1	5.5	$0.127	6/22	19.2s
Total de testes 22 Testes errados 16 Custo total $0.127 Tempo de resposta (médio) 19.2s
#154	MiMo-V2.5-Pro none	Xiaomi	1	5.5	$0.068	6/22	4.12s
Total de testes 22 Testes errados 16 Custo total $0.068 Tempo de resposta (médio) 4.12s
#151	GLM 5.1 none	Z.ai	1	5.5	$0.164	7/22	6.70s
Total de testes 22 Testes errados 15 Custo total $0.164 Tempo de resposta (médio) 6.70s
#143	Gemini 3.1 Flash Lite high	Google	1	5.6	$2.044	10/18	62.0s
Total de testes 18 Testes errados 8 Custo total $2.044 Tempo de resposta (médio) 62.0s
#140	Nemotron 3 Super medium	NVIDIA	1	5.7	$0.050	8/22	52.0s
Total de testes 22 Testes errados 14 Custo total $0.050 Tempo de resposta (médio) 52.0s
#138	Kimi K2.6 none	Moonshot AI	1	5.8	$0.184	7/22	19.6s
Total de testes 22 Testes errados 15 Custo total $0.184 Tempo de resposta (médio) 19.6s
#134	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
Total de testes 21 Testes errados 11 Custo total $0.683 Tempo de resposta (médio) 41.2s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Total de testes 22 Testes errados 14 Custo total $0.349 Tempo de resposta (médio) 1.65s
#130	Step 3.5 Flash medium	Stepfun	1	6.0	$0.108	11/21	174.2s
Total de testes 21 Testes errados 10 Custo total $0.108 Tempo de resposta (médio) 174.2s
#128	GPT-5 Nano medium	OpenAI	1	6.1	$0.114	9/22	54.9s
Total de testes 22 Testes errados 13 Custo total $0.114 Tempo de resposta (médio) 54.9s
#122	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
Total de testes 22 Testes errados 13 Custo total $0.046 Tempo de resposta (médio) 1.75s
#120	Gemini 3.1 Flash Lite minimal	Google	1	6.1	$0.047	10/22	1.86s
Total de testes 22 Testes errados 12 Custo total $0.047 Tempo de resposta (médio) 1.86s
#119	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Total de testes 22 Testes errados 11 Custo total $0.837 Tempo de resposta (médio) 112.5s
#116	Seed-2.0-Lite none	Bytedance Seed	1	6.2	$0.066	8/22	4.40s
Total de testes 22 Testes errados 14 Custo total $0.066 Tempo de resposta (médio) 4.40s
#112	Claude Sonnet 5 none	Anthropic	2	6.3	$0.548	8/22	6.04s
Total de testes 22 Testes errados 14 Custo total $0.548 Tempo de resposta (médio) 6.04s

←

1 2 3 4 5

→

Falhas por Sem resposta

Filtrar modelos

Melhores modelos por Contagem de Sem resposta

Contagem de Sem resposta vs Pontuação

Melhores modelos por Tempo de resposta (médio)