Ranking de Específico do domínio x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

421

Modelo mais afetado

Muse Spark 1.1 3

Motivos de falha

Resposta incorreta421 Tempo esgotado43 Formatação extra17 Sem resposta8 Erro de API7 Não seguiu as instruções1

Categorias

Específico do domínio421 Truques anti-IA293 Programação259 Resolução de quebra-cabeças204 Conhecimentos gerais172 Combinado69 Inteligência geral62 Seguimento de instruções61 Análise e extração de dados41 Chamada de ferramentas3

202/202

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#174	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
Total de testes 3 Testes errados 3 Custo total $0.025 Tempo de resposta (médio) 756ms
#175	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
Total de testes 3 Testes errados 3 Custo total $0.021 Tempo de resposta (médio) 464ms
#177	North Mini Code none	Cohere	3	3.0	$0.000	0/3	14.7s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 14.7s
#180	GPT-4o-mini none	OpenAI	3	3.0	$0.010	0/3	637ms
Total de testes 3 Testes errados 3 Custo total $0.010 Tempo de resposta (médio) 637ms
#183	Nemotron 3 Super none	NVIDIA	3	3.6	$0.008	0/3	6.23s
Total de testes 3 Testes errados 3 Custo total $0.008 Tempo de resposta (médio) 6.23s
#184	Ling-2.6-flash none	Inclusionai	3	3.0	$0.002	0/3	4.95s
Total de testes 3 Testes errados 3 Custo total $0.002 Tempo de resposta (médio) 4.95s
#186	GPT-5.4 Nano none	OpenAI	3	2.9	$0.041	0/3	926ms
Total de testes 3 Testes errados 3 Custo total $0.041 Tempo de resposta (médio) 926ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	6.24s
Total de testes 3 Testes errados 3 Custo total $0.067 Tempo de resposta (médio) 6.24s
#194	Cobuddy medium	Baidu	3	2.9	$0.000	0/3	128.2s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 128.2s
#197	Grok 4.20 Beta none	X AI	3	3.0	$0.087	0/3	611ms
Total de testes 3 Testes errados 3 Custo total $0.087 Tempo de resposta (médio) 611ms
#198	Laguna M.1 none	Poolside	3	3.6	$0.009	0/3	5.50s
Total de testes 3 Testes errados 3 Custo total $0.009 Tempo de resposta (médio) 5.50s
#199	Elephant Alpha none	Openrouter	3	3.0	$0.000	0/3	927ms
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 927ms
#201	Elephant Alpha medium	Openrouter	3	3.0	$0.000	0/3	925ms
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 925ms
#207	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
Total de testes 3 Testes errados 3 Custo total $0.007 Tempo de resposta (médio) 357ms
#212	gpt-oss-120b none	OpenAI	3	3.0	$0.010	0/3	35.0s
Total de testes 3 Testes errados 3 Custo total $0.010 Tempo de resposta (médio) 35.0s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Específico do domínio: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado