Ranking de Específico do domínio x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

421

Modelo mais afetado

Muse Spark 1.1 3

Motivos de falha

Resposta incorreta421 Tempo esgotado43 Formatação extra17 Sem resposta8 Erro de API7 Não seguiu as instruções1

Categorias

Específico do domínio421 Truques anti-IA293 Programação259 Resolução de quebra-cabeças204 Conhecimentos gerais172 Combinado69 Inteligência geral62 Seguimento de instruções61 Análise e extração de dados41 Chamada de ferramentas3

202/202

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#144	Kimi K2.6 none	Moonshot AI	2	5.3	$0.184	1/3	1.48s
Total de testes 3 Testes errados 2 Custo total $0.184 Tempo de resposta (médio) 1.48s
#145	GPT-5.4 none	OpenAI	2	5.3	$0.397	1/3	1.07s
Total de testes 3 Testes errados 2 Custo total $0.397 Tempo de resposta (médio) 1.07s
#146	Nemotron 3 Super medium	NVIDIA	2	2.9	$0.055	0/3	16.2s
Total de testes 3 Testes errados 3 Custo total $0.055 Tempo de resposta (médio) 16.2s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
Total de testes 3 Testes errados 2 Custo total $0.247 Tempo de resposta (médio) 465ms
#151	GLM 5V Turbo none	Z.ai	2	5.3	$0.052	1/3	2.09s
Total de testes 3 Testes errados 2 Custo total $0.052 Tempo de resposta (médio) 2.09s
#152	Owl Alpha medium	Openrouter	2	5.3	$0.000	1/3	8.58s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 8.58s
#153	Mimo V2 PRO none	Xiaomi	2	5.3	$0.045	1/3	1.78s
Total de testes 3 Testes errados 2 Custo total $0.045 Tempo de resposta (médio) 1.78s
#154	Owl Alpha none	Openrouter	2	5.3	$0.000	1/3	3.00s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 3.00s
#156	DeepSeek V4 Flash none	DeepSeek	2	5.3	$0.042	1/3	19.7s
Total de testes 3 Testes errados 2 Custo total $0.042 Tempo de resposta (médio) 19.7s
#159	Hy3 preview low	Tencent	2	5.9	$0.015	1/3	40.4s
Total de testes 3 Testes errados 2 Custo total $0.015 Tempo de resposta (médio) 40.4s
#160	MiMo-V2.5-Pro none	Xiaomi	2	5.3	$0.068	1/3	877ms
Total de testes 3 Testes errados 2 Custo total $0.068 Tempo de resposta (médio) 877ms
#161	Kimi K2.5 none	Moonshot AI	2	5.3	$0.127	1/3	4.38s
Total de testes 3 Testes errados 2 Custo total $0.127 Tempo de resposta (médio) 4.38s
#163	Mimo V2 Omni none	Xiaomi	2	5.3	$0.021	1/3	2.10s
Total de testes 3 Testes errados 2 Custo total $0.021 Tempo de resposta (médio) 2.10s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
Total de testes 3 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	1/3	127.6s
Total de testes 3 Testes errados 2 Custo total $2.310 Tempo de resposta (médio) 127.6s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Específico do domínio: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado