Ranking de Específico do domínio x Formatação extra

Veja quais modelos de IA têm mais chance de encontrar Formatação extra em Específico do domínio, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Grok Build 0.1 1

Motivos de falha

Resposta incorreta412 Tempo esgotado43 Formatação extra17 Sem resposta8 Erro de API7 Não seguiu as instruções1

Categorias

Truques anti-IA20 Programação18 Específico do domínio17 Resolução de quebra-cabeças8 Análise e extração de dados6 Seguimento de instruções3 Combinado1

13/13

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
Total de testes 3 Testes errados 2 Custo total $1.097 Tempo de resposta (médio) 158.0s
#75	Grok 4.20 medium	X AI	1	5.3	$0.777	1/3	27.0s
Total de testes 3 Testes errados 2 Custo total $0.777 Tempo de resposta (médio) 27.0s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	5.3	$0.187	1/3	37.9s
Total de testes 3 Testes errados 2 Custo total $0.187 Tempo de resposta (médio) 37.9s
#101	MiMo-V2.5 medium	Xiaomi	1	5.3	$0.082	1/3	34.5s
Total de testes 3 Testes errados 2 Custo total $0.082 Tempo de resposta (médio) 34.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
Total de testes 3 Testes errados 3 Custo total $2.057 Tempo de resposta (médio) 0ms
#43	Claude Opus 4.6 medium	Anthropic	2	3.0	$3.059	0/3	83.4s
Total de testes 3 Testes errados 3 Custo total $3.059 Tempo de resposta (médio) 83.4s
#46	DeepSeek V4 Pro high	DeepSeek	1	3.6	$0.200	0/3	151.5s
Total de testes 3 Testes errados 3 Custo total $0.200 Tempo de resposta (médio) 151.5s
#134	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/3	47.9s
Total de testes 3 Testes errados 3 Custo total $0.683 Tempo de resposta (médio) 47.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2	2.9	$0.077	0/3	7.47s
Total de testes 3 Testes errados 3 Custo total $0.077 Tempo de resposta (médio) 7.47s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	2.9	$0.041	0/3	4.99s
Total de testes 3 Testes errados 3 Custo total $0.041 Tempo de resposta (médio) 4.99s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	2.9	$5.599	0/3	24.7s
Total de testes 3 Testes errados 3 Custo total $5.599 Tempo de resposta (médio) 24.7s
#184	Hunter Alpha medium	OpenRouter	1	3.0	$0.000	0/3	10.5s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 10.5s
#197	Grok 4.20 none	X AI	1	3.0	$0.057	0/3	687ms
Total de testes 3 Testes errados 3 Custo total $0.057 Tempo de resposta (médio) 687ms

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Específico do domínio: Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado