Ranking de Específico do domínio x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

421

Modelo mais afetado

Muse Spark 1.1 3

Motivos de falha

Resposta incorreta421 Tempo esgotado43 Formatação extra17 Sem resposta8 Erro de API7 Não seguiu as instruções1

Categorias

Específico do domínio421 Truques anti-IA293 Programação259 Resolução de quebra-cabeças204 Conhecimentos gerais172 Combinado69 Inteligência geral62 Seguimento de instruções61 Análise e extração de dados41 Chamada de ferramentas3

202/202

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
Total de testes 3 Testes errados 2 Custo total $0.147 Tempo de resposta (médio) 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
Total de testes 3 Testes errados 2 Custo total $0.022 Tempo de resposta (médio) 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
Total de testes 3 Testes errados 2 Custo total $0.025 Tempo de resposta (médio) 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
Total de testes 3 Testes errados 2 Custo total $0.047 Tempo de resposta (médio) 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
Total de testes 3 Testes errados 3 Custo total $0.054 Tempo de resposta (médio) 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
Total de testes 3 Testes errados 2 Custo total $0.026 Tempo de resposta (médio) 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
Total de testes 3 Testes errados 3 Custo total $5.599 Tempo de resposta (médio) 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
Total de testes 3 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
Total de testes 3 Testes errados 2 Custo total $0.033 Tempo de resposta (médio) 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
Total de testes 3 Testes errados 2 Custo total $0.032 Tempo de resposta (médio) 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
Total de testes 3 Testes errados 2 Custo total $0.030 Tempo de resposta (médio) 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
Total de testes 3 Testes errados 3 Custo total $0.340 Tempo de resposta (médio) 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
Total de testes 3 Testes errados 3 Custo total $0.166 Tempo de resposta (médio) 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 2.33s

←

1 9 10 11 14

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Específico do domínio: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado