Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

1585

Modelo mais afetado

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorias

Na categoria Específico do domínio421 Na categoria Truques anti-IA293 Na categoria Programação259 Na categoria Resolução de quebra-cabeças204 Na categoria Conhecimentos gerais172 Na categoria Combinado69 Na categoria Inteligência geral62 Na categoria Seguimento de instruções61 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

215/215

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Total de testes 22 Testes errados 8 Custo total $0.515 Tempo de resposta (médio) 26.4s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Total de testes 22 Testes errados 10 Custo total $0.237 Tempo de resposta (médio) 27.6s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Total de testes 19 Testes errados 12 Custo total $0.547 Tempo de resposta (médio) 28.7s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Total de testes 22 Testes errados 10 Custo total $0.777 Tempo de resposta (médio) 29.5s
#177	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Total de testes 22 Testes errados 18 Custo total $0.000 Tempo de resposta (médio) 29.9s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Total de testes 22 Testes errados 10 Custo total $1.694 Tempo de resposta (médio) 31.5s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
Total de testes 22 Testes errados 10 Custo total $0.082 Tempo de resposta (médio) 32.2s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Total de testes 22 Testes errados 9 Custo total $0.774 Tempo de resposta (médio) 32.2s
#46	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
Total de testes 21 Testes errados 6 Custo total $0.307 Tempo de resposta (médio) 33.5s
#88	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
Total de testes 22 Testes errados 10 Custo total $0.187 Tempo de resposta (médio) 33.9s
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Total de testes 22 Testes errados 9 Custo total $3.059 Tempo de resposta (médio) 34.3s
#156	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.042	5/22	36.8s
Total de testes 22 Testes errados 17 Custo total $0.042 Tempo de resposta (médio) 36.8s
#13	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Total de testes 22 Testes errados 4 Custo total $4.137 Tempo de resposta (médio) 38.4s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Total de testes 12 Testes errados 6 Custo total $0.020 Tempo de resposta (médio) 39.0s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 39.9s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)