Ranking de Análise e extração de dados x Erro de API

Veja quais modelos de IA têm mais chance de encontrar Erro de API em Análise e extração de dados, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

MiMo-V2-Flash 1

Motivos de falha

Resposta incorreta41 Erro de API14 Sem resposta8 Formatação extra6 Tempo esgotado1

Categorias

Programação45 Combinado26 Chamada de ferramentas17 Análise e extração de dados14 Truques anti-IA14 Conhecimentos gerais13 Inteligência geral12 Resolução de quebra-cabeças12 Específico do domínio7 Seguimento de instruções1

14/14

Posição	Modelo	Empresa	Contagem de Erro de API	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#113	MiMo-V2-Flash medium	Xiaomi	1	6.5	$0.043	1/2	0ms
Total de testes 2 Testes errados 1 Custo total $0.043 Tempo de resposta (médio) 0ms
#209	Step 3.5 Flash none	Stepfun	1	1.5	$0.020	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.020 Tempo de resposta (médio) 0ms
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.23s
Total de testes 2 Testes errados 1 Custo total $0.096 Tempo de resposta (médio) 1.23s
#199	Hy3 preview none	Tencent	1	6.5	$0.003	1/2	2.85s
Total de testes 2 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 2.85s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	1/2	5.25s
Total de testes 2 Testes errados 1 Custo total $0.018 Tempo de resposta (médio) 5.25s
#153	Hy3 preview low	Tencent	1	6.5	$0.015	1/2	5.85s
Total de testes 2 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 5.85s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	1/2	7.12s
Total de testes 2 Testes errados 1 Custo total $0.010 Tempo de resposta (médio) 7.12s
#79	Gemini 3.5 Flash none	Google	1	6.5	$1.079	1/2	8.10s
Total de testes 2 Testes errados 1 Custo total $1.079 Tempo de resposta (médio) 8.10s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
Total de testes 2 Testes errados 2 Custo total $0.547 Tempo de resposta (médio) 9.33s
#135	Hy3 preview high	Tencent	1	6.5	$0.048	1/2	12.1s
Total de testes 2 Testes errados 1 Custo total $0.048 Tempo de resposta (médio) 12.1s
#200	MiMo-V2-Flash none	Xiaomi	1	2.9	$0.025	0/2	19.7s
Total de testes 2 Testes errados 2 Custo total $0.025 Tempo de resposta (médio) 19.7s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
Total de testes 2 Testes errados 2 Custo total $0.026 Tempo de resposta (médio) 45.9s
#114	Qwen3.5-Flash medium	Qwen	1	7.3	$0.139	1/2	57.0s
Total de testes 2 Testes errados 1 Custo total $0.139 Tempo de resposta (médio) 57.0s
#119	Qwen3.5-35B-A3B medium	Qwen	1	7.3	$0.837	1/2	59.3s
Total de testes 2 Testes errados 1 Custo total $0.837 Tempo de resposta (médio) 59.3s

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Análise e extração de dados: Erro de API

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado