Ranking de falhas por Tempo esgotado

Veja quais modelos de IA encontram Tempo esgotado com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Claude Opus 4.7 1

Categorias

Na categoria Específico do domínio43 Na categoria Programação26 Na categoria Combinado5 Na categoria Resolução de quebra-cabeças5 Na categoria Inteligência geral4 Na categoria Truques anti-IA4 Na categoria Análise e extração de dados1 Na categoria Seguimento de instruções1

44/44

Posição	Modelo	Empresa	Contagem de Tempo esgotado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#15	Claude Opus 4.7 medium	Anthropic	1	8.7	$1.477	18/22	7.61s
Total de testes 22 Testes errados 4 Custo total $1.477 Tempo de resposta (médio) 7.61s
#19	Qwen3.6 Max Preview medium	Qwen	1	8.4	$1.143	16/22	67.5s
Total de testes 22 Testes errados 6 Custo total $1.143 Tempo de resposta (médio) 67.5s
#33	Kimi K3 max	Moonshot AI	2	8.0	$3.112	16/22	122.5s
Total de testes 22 Testes errados 6 Custo total $3.112 Tempo de resposta (médio) 122.5s
#38	GLM 5.2 medium	Z.ai	1	7.8	$0.222	15/21	23.3s
Total de testes 21 Testes errados 6 Custo total $0.222 Tempo de resposta (médio) 23.3s
#42	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
Total de testes 21 Testes errados 6 Custo total $0.307 Tempo de resposta (médio) 33.5s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Total de testes 22 Testes errados 7 Custo total $0.267 Tempo de resposta (médio) 51.5s
#49	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
Total de testes 21 Testes errados 7 Custo total $0.323 Tempo de resposta (médio) 23.0s
#21	GPT-5.2 medium	OpenAI	1	8.4	$0.951	14/22	22.6s
Total de testes 22 Testes errados 8 Custo total $0.951 Tempo de resposta (médio) 22.6s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Total de testes 22 Testes errados 8 Custo total $0.970 Tempo de resposta (médio) 62.7s
#40	Claude Sonnet 4.6 medium	Anthropic	1	7.8	$2.057	14/22	25.9s
Total de testes 22 Testes errados 8 Custo total $2.057 Tempo de resposta (médio) 25.9s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	2	7.5	$0.437	14/22	89.2s
Total de testes 22 Testes errados 8 Custo total $0.437 Tempo de resposta (médio) 89.2s
#72	Qwen3.5-122B-A10B medium	Qwen	2	7.1	$1.046	14/22	64.2s
Total de testes 22 Testes errados 8 Custo total $1.046 Tempo de resposta (médio) 64.2s
#95	Gemma 4 26B A4B medium	Google	2	6.6	$0.089	14/22	103.8s
Total de testes 22 Testes errados 8 Custo total $0.089 Tempo de resposta (médio) 103.8s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Total de testes 22 Testes errados 8 Custo total $0.163 Tempo de resposta (médio) 75.4s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Total de testes 22 Testes errados 9 Custo total $1.627 Tempo de resposta (médio) 111.9s

Falhas por Tempo esgotado

Filtrar modelos

Melhores modelos por Contagem de Tempo esgotado

Contagem de Tempo esgotado vs Pontuação

Melhores modelos por Tempo de resposta (médio)