Ranking de Específico do domínio x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

412

Modelo mais afetado

Claude Sonnet 4.6 1

Motivos de falha

Resposta incorreta412 Tempo esgotado43 Formatação extra17 Sem resposta8 Erro de API7 Não seguiu as instruções1

Categorias

Específico do domínio412 Truques anti-IA293 Programação252 Resolução de quebra-cabeças201 Conhecimentos gerais168 Combinado68 Seguimento de instruções61 Inteligência geral59 Análise e extração de dados41 Chamada de ferramentas3

198/198

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
Total de testes 3 Testes errados 3 Custo total $2.057 Tempo de resposta (médio) 0ms
#42	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
Total de testes 3 Testes errados 3 Custo total $0.307 Tempo de resposta (médio) 0ms
#210	LFM2-24B-A2B none	Liquid	1	5.9	$0.001	1/3	287ms
Total de testes 3 Testes errados 2 Custo total $0.001 Tempo de resposta (médio) 287ms
#201	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
Total de testes 3 Testes errados 3 Custo total $0.007 Tempo de resposta (médio) 357ms
#160	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
Total de testes 3 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 364ms
#165	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
Total de testes 3 Testes errados 2 Custo total $0.022 Tempo de resposta (médio) 367ms
#205	Laguna Xs.2 none	Poolside	2	5.3	$0.004	1/3	371ms
Total de testes 3 Testes errados 2 Custo total $0.004 Tempo de resposta (médio) 371ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
Total de testes 3 Testes errados 3 Custo total $0.021 Tempo de resposta (médio) 464ms
#142	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
Total de testes 3 Testes errados 2 Custo total $0.247 Tempo de resposta (médio) 465ms
#127	Qwen3.5-35B-A3B none	Qwen	1	7.7	$0.106	2/3	485ms
Total de testes 3 Testes errados 1 Custo total $0.106 Tempo de resposta (médio) 485ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 489ms
#118	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
Total de testes 3 Testes errados 2 Custo total $0.017 Tempo de resposta (médio) 495ms
#189	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
Total de testes 3 Testes errados 2 Custo total $0.030 Tempo de resposta (médio) 534ms
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
Total de testes 3 Testes errados 3 Custo total $0.090 Tempo de resposta (médio) 540ms
#200	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	564ms
Total de testes 3 Testes errados 2 Custo total $0.025 Tempo de resposta (médio) 564ms

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Específico do domínio: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado