Ranking de Específico do domínio x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

412

Modelo mais afetado

Muse Spark 1.1 3

Motivos de falha

Resposta incorreta412 Tempo esgotado43 Formatação extra17 Sem resposta8 Erro de API7 Não seguiu as instruções1

Categorias

Específico do domínio412 Truques anti-IA293 Programação252 Resolução de quebra-cabeças201 Conhecimentos gerais168 Combinado68 Seguimento de instruções61 Inteligência geral59 Análise e extração de dados41 Chamada de ferramentas3

198/198

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#117	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
Total de testes 3 Testes errados 3 Custo total $0.249 Tempo de resposta (médio) 10.0s
#120	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
Total de testes 3 Testes errados 3 Custo total $0.047 Tempo de resposta (médio) 1.02s
#121	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
Total de testes 3 Testes errados 3 Custo total $0.019 Tempo de resposta (médio) 50.9s
#122	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
Total de testes 3 Testes errados 3 Custo total $0.046 Tempo de resposta (médio) 762ms
#136	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
Total de testes 3 Testes errados 3 Custo total $0.095 Tempo de resposta (médio) 937ms
#141	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
Total de testes 3 Testes errados 3 Custo total $0.041 Tempo de resposta (médio) 2.24s
#143	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
Total de testes 3 Testes errados 3 Custo total $2.044 Tempo de resposta (médio) 139.9s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
Total de testes 3 Testes errados 3 Custo total $0.048 Tempo de resposta (médio) 4.87s
#151	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
Total de testes 3 Testes errados 3 Custo total $0.164 Tempo de resposta (médio) 1.99s
#156	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
Total de testes 3 Testes errados 3 Custo total $0.015 Tempo de resposta (médio) 2.49s
#159	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
Total de testes 3 Testes errados 3 Custo total $0.142 Tempo de resposta (médio) 737ms
#161	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
Total de testes 3 Testes errados 3 Custo total $0.061 Tempo de resposta (médio) 7.45s
#162	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
Total de testes 3 Testes errados 3 Custo total $0.016 Tempo de resposta (médio) 1.04s
#168	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
Total de testes 3 Testes errados 3 Custo total $0.025 Tempo de resposta (médio) 756ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
Total de testes 3 Testes errados 3 Custo total $0.021 Tempo de resposta (médio) 464ms

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Específico do domínio: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado