Ranking de falhas por Tempo esgotado

Veja quais modelos de IA encontram Tempo esgotado com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Claude Opus 4.7 1

Categorias

Na categoria Específico do domínio43 Na categoria Programação26 Na categoria Combinado5 Na categoria Resolução de quebra-cabeças5 Na categoria Inteligência geral4 Na categoria Truques anti-IA4 Na categoria Análise e extração de dados1 Na categoria Seguimento de instruções1

44/44

Posição	Modelo	Empresa	Contagem de Tempo esgotado	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#15	Claude Opus 4.7 medium	Anthropic	1	8.7	$1.477	18/22	7.61s
Total de testes 22 Testes errados 4 Custo total $1.477 Tempo de resposta (médio) 7.61s
#19	Qwen3.6 Max Preview medium	Qwen	1	8.4	$1.143	16/22	67.5s
Total de testes 22 Testes errados 6 Custo total $1.143 Tempo de resposta (médio) 67.5s
#21	GPT-5.2 medium	OpenAI	1	8.4	$0.951	14/22	22.6s
Total de testes 22 Testes errados 8 Custo total $0.951 Tempo de resposta (médio) 22.6s
#26	GPT-5 Mini medium	OpenAI	1	8.1	$0.237	12/22	27.6s
Total de testes 22 Testes errados 10 Custo total $0.237 Tempo de resposta (médio) 27.6s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Total de testes 22 Testes errados 8 Custo total $0.970 Tempo de resposta (médio) 62.7s
#33	Kimi K3 max	Moonshot AI	2	8.0	$3.112	16/22	122.5s
Total de testes 22 Testes errados 6 Custo total $3.112 Tempo de resposta (médio) 122.5s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Total de testes 22 Testes errados 7 Custo total $0.267 Tempo de resposta (médio) 51.5s
#38	GLM 5.2 medium	Z.ai	1	7.8	$0.222	15/21	23.3s
Total de testes 21 Testes errados 6 Custo total $0.222 Tempo de resposta (médio) 23.3s
#40	Claude Sonnet 4.6 medium	Anthropic	1	7.8	$2.057	14/22	25.9s
Total de testes 22 Testes errados 8 Custo total $2.057 Tempo de resposta (médio) 25.9s
#42	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
Total de testes 21 Testes errados 6 Custo total $0.307 Tempo de resposta (médio) 33.5s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Total de testes 22 Testes errados 12 Custo total $0.200 Tempo de resposta (médio) 79.1s
#47	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
Total de testes 22 Testes errados 10 Custo total $0.286 Tempo de resposta (médio) 75.0s
#49	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
Total de testes 21 Testes errados 7 Custo total $0.323 Tempo de resposta (médio) 23.0s
#52	Kimi K2.7 Code medium	Moonshot AI	3	7.5	$0.751	12/22	84.2s
Total de testes 22 Testes errados 10 Custo total $0.751 Tempo de resposta (médio) 84.2s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	2	7.5	$0.437	14/22	89.2s
Total de testes 22 Testes errados 8 Custo total $0.437 Tempo de resposta (médio) 89.2s

Falhas por Tempo esgotado

Filtrar modelos

Melhores modelos por Contagem de Tempo esgotado

Contagem de Tempo esgotado vs Pontuação

Melhores modelos por Tempo de resposta (médio)