Ranking de Programação x Tempo esgotado

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Tempo esgotado em Programação, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Kimi K2.7 Code 1

Motivos de falha

Resposta incorreta230 Erro de API43 Tempo esgotado25 Sem resposta18 Não seguiu as instruções16 Formatação extra12

Categorias

Específico do domínio37 Programação25 Resolução de quebra-cabeças5 Inteligência geral4 Truques anti-IA4 Combinado2 Análise e extração de dados1 Seguimento de instruções1

22/22

Posição	Modelo	Empresa	Contagem de Tempo esgotado	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#79	Kimi K2.7 Code medium	Moonshot AI	1	7.6	$0.581	2/3	146.7s
Total de testes 3 Testes errados 1 Custo total $0.581 Tempo de resposta (médio) 146.7s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
Total de testes 3 Testes errados 2 Custo total $0.177 Tempo de resposta (médio) 108.6s
#32	GLM 5.2 high	Z.ai	2	6.4	$0.554	1/3	73.0s
Total de testes 3 Testes errados 2 Custo total $0.554 Tempo de resposta (médio) 73.0s
#44	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
Total de testes 3 Testes errados 2 Custo total $0.888 Tempo de resposta (médio) 214.4s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
Total de testes 3 Testes errados 2 Custo total $0.588 Tempo de resposta (médio) 114.5s
#52	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
Total de testes 3 Testes errados 2 Custo total $0.131 Tempo de resposta (médio) 144.7s
#53	DeepSeek V4 Pro high	DeepSeek	1	6.1	$0.157	1/3	243.0s
Total de testes 3 Testes errados 2 Custo total $0.157 Tempo de resposta (médio) 243.0s
#56	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
Total de testes 3 Testes errados 2 Custo total $0.348 Tempo de resposta (médio) 217.5s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
Total de testes 3 Testes errados 2 Custo total $0.042 Tempo de resposta (médio) 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
Total de testes 3 Testes errados 2 Custo total $0.044 Tempo de resposta (médio) 220.5s
#75	MiMo-V2-Flash medium	Xiaomi	1	6.0	$0.043	1/3	10.7s
Total de testes 3 Testes errados 2 Custo total $0.043 Tempo de resposta (médio) 10.7s
#104	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
Total de testes 3 Testes errados 2 Custo total $0.401 Tempo de resposta (médio) 206.6s
#72	Gemma 4 26B A4B medium	Google	1	2.9	$0.045	0/3	272.5s
Total de testes 3 Testes errados 3 Custo total $0.045 Tempo de resposta (médio) 272.5s
#77	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Total de testes 3 Testes errados 3 Custo total $0.288 Tempo de resposta (médio) 109.6s
#84	Qwen3.5-Flash medium	Qwen	1	3.7	$0.080	0/3	58.9s
Total de testes 3 Testes errados 3 Custo total $0.080 Tempo de resposta (médio) 58.9s

Filtrar modelos

Melhores modelos por Contagem de Tempo esgotado

Contagem de Tempo esgotado vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Programação: Tempo esgotado

Filtrar modelos

Melhores modelos por Contagem de Tempo esgotado

Contagem de Tempo esgotado vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado