Ranking de Específico do domínio x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

421

Modelo mais afetado

Muse Spark 1.1 3

Motivos de falha

Resposta incorreta421 Tempo esgotado43 Formatação extra17 Sem resposta8 Erro de API7 Não seguiu as instruções1

Categorias

Específico do domínio421 Truques anti-IA293 Programação259 Resolução de quebra-cabeças204 Conhecimentos gerais172 Combinado69 Inteligência geral62 Seguimento de instruções61 Análise e extração de dados41 Chamada de ferramentas3

202/202

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
Total de testes 3 Testes errados 2 Custo total $0.584 Tempo de resposta (médio) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
Total de testes 3 Testes errados 2 Custo total $0.604 Tempo de resposta (médio) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
Total de testes 3 Testes errados 2 Custo total $0.391 Tempo de resposta (médio) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
Total de testes 3 Testes errados 2 Custo total $1.055 Tempo de resposta (médio) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
Total de testes 3 Testes errados 2 Custo total $0.234 Tempo de resposta (médio) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
Total de testes 3 Testes errados 2 Custo total $0.676 Tempo de resposta (médio) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
Total de testes 3 Testes errados 2 Custo total $2.077 Tempo de resposta (médio) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
Total de testes 3 Testes errados 3 Custo total $0.307 Tempo de resposta (médio) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
Total de testes 3 Testes errados 3 Custo total $0.200 Tempo de resposta (médio) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
Total de testes 3 Testes errados 3 Custo total $0.323 Tempo de resposta (médio) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
Total de testes 3 Testes errados 2 Custo total $0.352 Tempo de resposta (médio) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
Total de testes 3 Testes errados 2 Custo total $0.138 Tempo de resposta (médio) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
Total de testes 3 Testes errados 2 Custo total $0.519 Tempo de resposta (médio) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
Total de testes 3 Testes errados 3 Custo total $0.478 Tempo de resposta (médio) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
Total de testes 3 Testes errados 2 Custo total $0.177 Tempo de resposta (médio) 8.05s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Específico do domínio: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado