Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.

Modelos exibidos

Falhas totais

1523

Modelo mais afetado

Mercury 2 17

Categorias

Na categoria Específico do domínio404 Na categoria Truques anti-IA290 Na categoria Programação249 Na categoria Resolução de quebra-cabeças193 Na categoria Conhecimentos gerais165 Na categoria Combinado67 Na categoria Seguimento de instruções57 Na categoria Inteligência geral55 Na categoria Análise e extração de dados40 Na categoria Chamada de ferramentas3

205/205

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Total de testes 22 Testes errados 18 Custo total $0.030 Tempo de resposta (médio) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Total de testes 22 Testes errados 17 Custo total $0.022 Tempo de resposta (médio) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
Total de testes 22 Testes errados 16 Custo total $0.127 Tempo de resposta (médio) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Total de testes 22 Testes errados 17 Custo total $0.010 Tempo de resposta (médio) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
Total de testes 22 Testes errados 17 Custo total $0.017 Tempo de resposta (médio) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Total de testes 22 Testes errados 18 Custo total $0.041 Tempo de resposta (médio) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Total de testes 22 Testes errados 15 Custo total $0.397 Tempo de resposta (médio) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
Total de testes 22 Testes errados 16 Custo total $0.142 Tempo de resposta (médio) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Total de testes 22 Testes errados 17 Custo total $0.008 Tempo de resposta (médio) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Total de testes 22 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Total de testes 22 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Total de testes 22 Testes errados 18 Custo total $0.021 Tempo de resposta (médio) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Total de testes 22 Testes errados 14 Custo total $0.066 Tempo de resposta (médio) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Total de testes 22 Testes errados 14 Custo total $0.073 Tempo de resposta (médio) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Total de testes 22 Testes errados 16 Custo total $0.095 Tempo de resposta (médio) 1.53s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)