Ranking de Específico do domínio x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

421

Modelo mais afetado

Muse Spark 1.1 3

Motivos de falha

Resposta incorreta421 Tempo esgotado43 Formatação extra17 Sem resposta8 Erro de API7 Não seguiu as instruções1

Categorias

Específico do domínio421 Truques anti-IA293 Programação259 Resolução de quebra-cabeças204 Conhecimentos gerais172 Combinado69 Inteligência geral62 Seguimento de instruções61 Análise e extração de dados41 Chamada de ferramentas3

202/202

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#112	Gemini 3.1 Flash Lite Preview none	Google	2	5.3	$0.052	1/3	942ms
Total de testes 3 Testes errados 2 Custo total $0.052 Tempo de resposta (médio) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	2	5.3	$0.073	1/3	1.17s
Total de testes 3 Testes errados 2 Custo total $0.073 Tempo de resposta (médio) 1.17s
#118	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/3	3.28s
Total de testes 3 Testes errados 2 Custo total $0.548 Tempo de resposta (médio) 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	2	5.9	$0.043	1/3	96.0s
Total de testes 3 Testes errados 2 Custo total $0.043 Tempo de resposta (médio) 96.0s
#124	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
Total de testes 3 Testes errados 2 Custo total $0.017 Tempo de resposta (médio) 495ms
#129	Inkling low	Thinkingmachines	2	5.3	$0.187	1/3	1.99s
Total de testes 3 Testes errados 2 Custo total $0.187 Tempo de resposta (médio) 1.99s
#130	Qwen3.6 Flash none	Qwen	2	5.3	$0.062	1/3	1.11s
Total de testes 3 Testes errados 2 Custo total $0.062 Tempo de resposta (médio) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.3	$0.122	1/3	4.43s
Total de testes 3 Testes errados 2 Custo total $0.122 Tempo de resposta (médio) 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	2	5.3	$0.095	1/3	698ms
Total de testes 3 Testes errados 2 Custo total $0.095 Tempo de resposta (médio) 698ms
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
Total de testes 3 Testes errados 2 Custo total $0.108 Tempo de resposta (médio) 170.5s
#137	Grok 4.20 Beta medium	X AI	2	5.3	$0.750	1/3	21.3s
Total de testes 3 Testes errados 2 Custo total $0.750 Tempo de resposta (médio) 21.3s
#138	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	757ms
Total de testes 3 Testes errados 2 Custo total $0.349 Tempo de resposta (médio) 757ms
#139	Gemini 3 PRO Preview medium	Google	2	5.3	$0.385	1/3	7.01s
Total de testes 3 Testes errados 2 Custo total $0.385 Tempo de resposta (médio) 7.01s
#141	Hy3 preview high	Tencent	2	5.3	$0.048	1/3	109.0s
Total de testes 3 Testes errados 2 Custo total $0.048 Tempo de resposta (médio) 109.0s
#143	North Mini Code medium	Cohere	2	5.3	$0.000	1/3	71.4s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 71.4s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Específico do domínio: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado