Ranking de falhas por Formatação extra

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Kimi K3 1

Categorias

Na categoria Truques anti-IA20 Na categoria Programação18 Na categoria Específico do domínio17 Na categoria Resolução de quebra-cabeças8 Na categoria Análise e extração de dados6 Na categoria Seguimento de instruções3 Na categoria Combinado1

42/42

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
Total de testes 22 Testes errados 6 Custo total $3.112 Tempo de resposta (médio) 122.5s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
Total de testes 22 Testes errados 6 Custo total $2.077 Tempo de resposta (médio) 12.7s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Total de testes 22 Testes errados 12 Custo total $0.200 Tempo de resposta (médio) 79.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
Total de testes 22 Testes errados 10 Custo total $0.286 Tempo de resposta (médio) 75.0s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Total de testes 22 Testes errados 9 Custo total $1.627 Tempo de resposta (médio) 111.9s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
Total de testes 22 Testes errados 9 Custo total $0.779 Tempo de resposta (médio) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
Total de testes 22 Testes errados 9 Custo total $0.535 Tempo de resposta (médio) 46.8s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Total de testes 22 Testes errados 10 Custo total $0.777 Tempo de resposta (médio) 29.5s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Total de testes 22 Testes errados 12 Custo total $0.096 Tempo de resposta (médio) 11.6s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
Total de testes 21 Testes errados 9 Custo total $0.333 Tempo de resposta (médio) 22.2s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
Total de testes 22 Testes errados 15 Custo total $0.044 Tempo de resposta (médio) 5.18s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Total de testes 21 Testes errados 9 Custo total $0.043 Tempo de resposta (médio) 20.1s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
Total de testes 21 Testes errados 11 Custo total $0.683 Tempo de resposta (médio) 41.2s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 9.88s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Total de testes 22 Testes errados 14 Custo total $0.048 Tempo de resposta (médio) 8.42s

Falhas por Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)