Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

Falhas totais

1558

Modelo mais afetado

LFM2-24B-A2B 9

Categorias

Na categoria Específico do domínio412 Na categoria Truques anti-IA293 Na categoria Programação252 Na categoria Resolução de quebra-cabeças201 Na categoria Conhecimentos gerais168 Na categoria Combinado68 Na categoria Seguimento de instruções61 Na categoria Inteligência geral59 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas3

209/209

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#210	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
Total de testes 16 Testes errados 14 Custo total $0.001 Tempo de resposta (médio) 782ms
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Total de testes 12 Testes errados 6 Custo total $0.020 Tempo de resposta (médio) 39.0s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
Total de testes 19 Testes errados 17 Custo total $0.000 Tempo de resposta (médio) 728ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Total de testes 19 Testes errados 15 Custo total $0.000 Tempo de resposta (médio) 17.1s
#206	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
Total de testes 19 Testes errados 13 Custo total $0.010 Tempo de resposta (médio) 21.6s
#205	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
Total de testes 19 Testes errados 14 Custo total $0.004 Tempo de resposta (médio) 806ms
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Total de testes 22 Testes errados 19 Custo total $0.036 Tempo de resposta (médio) 82.2s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
Total de testes 19 Testes errados 16 Custo total $0.008 Tempo de resposta (médio) 1.62s
#202	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Total de testes 19 Testes errados 12 Custo total $0.547 Tempo de resposta (médio) 28.7s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
Total de testes 22 Testes errados 20 Custo total $0.007 Tempo de resposta (médio) 1.45s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Total de testes 21 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 2.76s
#199	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
Total de testes 21 Testes errados 17 Custo total $0.003 Tempo de resposta (médio) 12.9s
#198	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Total de testes 19 Testes errados 13 Custo total $0.015 Tempo de resposta (médio) 6.73s
#197	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Total de testes 18 Testes errados 12 Custo total $0.057 Tempo de resposta (médio) 1.11s
#196	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Total de testes 18 Testes errados 12 Custo total $0.000 Tempo de resposta (médio) 4.70s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)