Ranking de Específico do domínio x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

421

Modelo mais afetado

Muse Spark 1.1 3

Motivos de falha

Resposta incorreta421 Tempo esgotado43 Formatação extra17 Sem resposta8 Erro de API7 Não seguiu as instruções1

Categorias

Específico do domínio421 Truques anti-IA293 Programação259 Resolução de quebra-cabeças204 Conhecimentos gerais172 Combinado69 Inteligência geral62 Seguimento de instruções61 Análise e extração de dados41 Chamada de ferramentas3

202/202

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
Total de testes 3 Testes errados 2 Custo total $1.166 Tempo de resposta (médio) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
Total de testes 3 Testes errados 2 Custo total $0.454 Tempo de resposta (médio) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
Total de testes 3 Testes errados 2 Custo total $0.779 Tempo de resposta (médio) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
Total de testes 3 Testes errados 3 Custo total $0.078 Tempo de resposta (médio) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
Total de testes 3 Testes errados 3 Custo total $0.600 Tempo de resposta (médio) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
Total de testes 3 Testes errados 2 Custo total $0.096 Tempo de resposta (médio) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
Total de testes 3 Testes errados 3 Custo total $1.207 Tempo de resposta (médio) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
Total de testes 3 Testes errados 2 Custo total $0.746 Tempo de resposta (médio) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
Total de testes 3 Testes errados 3 Custo total $0.391 Tempo de resposta (médio) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
Total de testes 3 Testes errados 2 Custo total $0.457 Tempo de resposta (médio) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
Total de testes 3 Testes errados 3 Custo total $0.089 Tempo de resposta (médio) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
Total de testes 3 Testes errados 2 Custo total $0.128 Tempo de resposta (médio) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
Total de testes 3 Testes errados 2 Custo total $0.018 Tempo de resposta (médio) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
Total de testes 3 Testes errados 2 Custo total $0.646 Tempo de resposta (médio) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
Total de testes 3 Testes errados 2 Custo total $0.621 Tempo de resposta (médio) 1.52s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Específico do domínio: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado