Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

LFM2-24B-A2B 9

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#195	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
Total de testes 21 Testes errados 15 Custo total $0.000 Tempo de resposta (médio) 1.27s
#194	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
Total de testes 22 Testes errados 18 Custo total $0.166 Tempo de resposta (médio) 142.6s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
Total de testes 21 Testes errados 16 Custo total $0.000 Tempo de resposta (médio) 1.22s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Total de testes 19 Testes errados 15 Custo total $0.009 Tempo de resposta (médio) 2.89s
#191	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Total de testes 18 Testes errados 12 Custo total $0.087 Tempo de resposta (médio) 1.19s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Total de testes 22 Testes errados 17 Custo total $0.340 Tempo de resposta (médio) 68.3s
#189	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Total de testes 22 Testes errados 18 Custo total $0.030 Tempo de resposta (médio) 829ms
#188	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 39.9s
#187	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
Total de testes 22 Testes errados 18 Custo total $0.032 Tempo de resposta (médio) 9.61s
#186	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Total de testes 19 Testes errados 10 Custo total $0.033 Tempo de resposta (médio) 14.7s
#185	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Total de testes 19 Testes errados 10 Custo total $0.069 Tempo de resposta (médio) 23.8s
#184	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
Total de testes 18 Testes errados 10 Custo total $0.000 Tempo de resposta (médio) 10.3s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Total de testes 21 Testes errados 17 Custo total $0.008 Tempo de resposta (médio) 2.98s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Total de testes 22 Testes errados 17 Custo total $0.067 Tempo de resposta (médio) 12.2s
#181	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
Total de testes 18 Testes errados 10 Custo total $5.599 Tempo de resposta (médio) 9.69s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)