Ranking de falhas por Formatação extra

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Kimi K3 1

Categorias

Na categoria Truques anti-IA20 Na categoria Programação18 Na categoria Específico do domínio17 Na categoria Resolução de quebra-cabeças8 Na categoria Análise e extração de dados6 Na categoria Seguimento de instruções3 Na categoria Combinado1

42/42

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Total de testes 21 Testes errados 13 Custo total $0.021 Tempo de resposta (médio) 2.44s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Total de testes 22 Testes errados 16 Custo total $0.142 Tempo de resposta (médio) 1.50s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Total de testes 22 Testes errados 16 Custo total $0.147 Tempo de resposta (médio) 3.50s
#166	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
Total de testes 22 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 9.12s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
Total de testes 22 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 4.62s
#184	Hunter Alpha medium	OpenRouter	1	4.7	$0.000	8/18	10.3s
Total de testes 18 Testes errados 10 Custo total $0.000 Tempo de resposta (médio) 10.3s
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Total de testes 18 Testes errados 12 Custo total $0.057 Tempo de resposta (médio) 1.11s
#199	Hy3 preview none	Tencent	1	4.0	$0.003	4/21	12.9s
Total de testes 21 Testes errados 17 Custo total $0.003 Tempo de resposta (médio) 12.9s
#200	MiMo-V2-Flash none	Xiaomi	1	4.0	$0.025	4/21	2.76s
Total de testes 21 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 2.76s
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	2/22	1.45s
Total de testes 22 Testes errados 20 Custo total $0.007 Tempo de resposta (médio) 1.45s
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
Total de testes 22 Testes errados 19 Custo total $0.036 Tempo de resposta (médio) 82.2s
#101	MiMo-V2.5 medium	Xiaomi	2	6.5	$0.082	12/22	32.2s
Total de testes 22 Testes errados 10 Custo total $0.082 Tempo de resposta (médio) 32.2s
#137	North Mini Code medium	Cohere	2	5.9	$0.000	9/22	137.1s
Total de testes 22 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 137.1s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
Total de testes 22 Testes errados 17 Custo total $0.044 Tempo de resposta (médio) 36.8s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Total de testes 22 Testes errados 18 Custo total $0.000 Tempo de resposta (médio) 29.9s

Falhas por Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)