Ranking de falhas por Tempo esgotado

Veja quais modelos de IA encontram Tempo esgotado com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Claude Opus 4.7 1

Categorias

Na categoria Específico do domínio43 Na categoria Programação26 Na categoria Combinado5 Na categoria Resolução de quebra-cabeças5 Na categoria Inteligência geral4 Na categoria Truques anti-IA4 Na categoria Análise e extração de dados1 Na categoria Seguimento de instruções1

44/44

Posição	Modelo	Empresa	Contagem de Tempo esgotado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Total de testes 21 Testes errados 9 Custo total $0.043 Tempo de resposta (médio) 20.1s
#128	GPT-5 Nano medium	OpenAI	1	6.1	$0.114	9/22	54.9s
Total de testes 22 Testes errados 13 Custo total $0.114 Tempo de resposta (médio) 54.9s
#130	Step 3.5 Flash medium	Stepfun	1	6.0	$0.108	11/21	174.2s
Total de testes 21 Testes errados 10 Custo total $0.108 Tempo de resposta (médio) 174.2s
#140	Nemotron 3 Super medium	NVIDIA	1	5.7	$0.050	8/22	52.0s
Total de testes 22 Testes errados 14 Custo total $0.050 Tempo de resposta (médio) 52.0s
#156	Gemma 4 26B A4B none	Google	1	5.5	$0.015	8/22	7.64s
Total de testes 22 Testes errados 14 Custo total $0.015 Tempo de resposta (médio) 7.64s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Total de testes 22 Testes errados 17 Custo total $0.008 Tempo de resposta (médio) 1.55s
#185	Grok 4.1 Fast medium	X AI	1	4.7	$0.069	9/19	23.8s
Total de testes 19 Testes errados 10 Custo total $0.069 Tempo de resposta (médio) 23.8s
#187	Qwen3 Coder Next medium	Qwen	1	4.7	$0.032	4/22	9.61s
Total de testes 22 Testes errados 18 Custo total $0.032 Tempo de resposta (médio) 9.61s
#33	Kimi K3 max	Moonshot AI	2	8.0	$3.112	16/22	122.5s
Total de testes 22 Testes errados 6 Custo total $3.112 Tempo de resposta (médio) 122.5s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	2	7.5	$0.437	14/22	89.2s
Total de testes 22 Testes errados 8 Custo total $0.437 Tempo de resposta (médio) 89.2s
#72	Qwen3.5-122B-A10B medium	Qwen	2	7.1	$1.046	14/22	64.2s
Total de testes 22 Testes errados 8 Custo total $1.046 Tempo de resposta (médio) 64.2s
#74	GLM 5.1 medium	Z.ai	2	7.1	$0.535	13/22	46.8s
Total de testes 22 Testes errados 9 Custo total $0.535 Tempo de resposta (médio) 46.8s
#76	DeepSeek V3.2 medium	DeepSeek	2	7.0	$0.078	11/22	68.6s
Total de testes 22 Testes errados 11 Custo total $0.078 Tempo de resposta (médio) 68.6s
#77	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Total de testes 22 Testes errados 12 Custo total $0.600 Tempo de resposta (médio) 99.0s
#95	Gemma 4 26B A4B medium	Google	2	6.6	$0.089	14/22	103.8s
Total de testes 22 Testes errados 8 Custo total $0.089 Tempo de resposta (médio) 103.8s

Falhas por Tempo esgotado

Filtrar modelos

Melhores modelos por Contagem de Tempo esgotado

Contagem de Tempo esgotado vs Pontuação

Melhores modelos por Tempo de resposta (médio)