Ranking de falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

1642

Modelo mais afetado

Gemini 3.6 Flash 1

Categorias

Na categoria Específico do domínio433 Na categoria Truques anti-IA306 Na categoria Programação266 Na categoria Resolução de quebra-cabeças214 Na categoria Conhecimentos gerais176 Na categoria Combinado71 Na categoria Inteligência geral66 Na categoria Seguimento de instruções65 Na categoria Análise e extração de dados41 Na categoria Chamada de ferramentas4

219/219

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Total de testes 22 Testes errados 8 Custo total $0.515 Tempo de resposta (médio) 26.4s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Total de testes 22 Testes errados 8 Custo total $0.604 Tempo de resposta (médio) 7.65s
#35	GLM 5.2 high	Z.ai	3	8.0	$0.796	14/22	62.7s
Total de testes 22 Testes errados 8 Custo total $0.796 Tempo de resposta (médio) 62.7s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Total de testes 22 Testes errados 8 Custo total $1.055 Tempo de resposta (médio) 11.3s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Total de testes 22 Testes errados 8 Custo total $0.234 Tempo de resposta (médio) 48.5s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Total de testes 22 Testes errados 8 Custo total $0.676 Tempo de resposta (médio) 7.11s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Total de testes 22 Testes errados 8 Custo total $2.057 Tempo de resposta (médio) 25.9s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Total de testes 22 Testes errados 8 Custo total $1.097 Tempo de resposta (médio) 52.1s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Total de testes 22 Testes errados 8 Custo total $0.352 Tempo de resposta (médio) 7.28s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
Total de testes 22 Testes errados 8 Custo total $0.437 Tempo de resposta (médio) 89.2s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Total de testes 22 Testes errados 8 Custo total $1.046 Tempo de resposta (médio) 64.2s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Total de testes 22 Testes errados 8 Custo total $0.300 Tempo de resposta (médio) 2.65s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
Total de testes 22 Testes errados 8 Custo total $0.089 Tempo de resposta (médio) 103.8s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
Total de testes 22 Testes errados 8 Custo total $0.107 Tempo de resposta (médio) 75.4s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Total de testes 22 Testes errados 9 Custo total $0.647 Tempo de resposta (médio) 11.5s

Falhas por Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)