Ranking de modelos de Específico do domínio

Veja quais modelos de IA vão melhor em Específico do domínio, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↑.

Modelos exibidos

Média de Pontuação de Específico do domínio

4.7

Melhor modelo

Grok 4.5 3.6

Motivos de falha

Com motivo de falha Resposta incorreta421 Com motivo de falha Tempo esgotado43 Com motivo de falha Formatação extra17 Com motivo de falha Sem resposta8 Com motivo de falha Erro de API7 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Específico do domínio	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#150	KAT-Coder-Air V2.5 high	Kwaipilot	2.9	5.6	$0.077	0/3	7.47s
Total de testes 3 Testes errados 3 Custo total $0.077 Tempo de resposta (médio) 7.47s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	3.0	5.6	$0.048	0/3	4.87s
Total de testes 3 Testes errados 3 Custo total $0.048 Tempo de resposta (médio) 4.87s
#157	GLM 5.1 none	Z.ai	2.9	5.5	$0.164	0/3	1.99s
Total de testes 3 Testes errados 3 Custo total $0.164 Tempo de resposta (médio) 1.99s
#162	Gemma 4 26B A4B none	Google	3.6	5.5	$0.015	0/3	2.49s
Total de testes 3 Testes errados 3 Custo total $0.015 Tempo de resposta (médio) 2.49s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2.9	5.4	$0.041	0/3	4.99s
Total de testes 3 Testes errados 3 Custo total $0.041 Tempo de resposta (médio) 4.99s
#165	GPT-5.6 Luna none	OpenAI	2.9	5.4	$0.142	0/3	737ms
Total de testes 3 Testes errados 3 Custo total $0.142 Tempo de resposta (médio) 737ms
#167	Qwen3.6 35B A3B none	Qwen	3.5	5.3	$0.061	0/3	7.45s
Total de testes 3 Testes errados 3 Custo total $0.061 Tempo de resposta (médio) 7.45s
#168	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/3	1.04s
Total de testes 3 Testes errados 3 Custo total $0.016 Tempo de resposta (médio) 1.04s
#174	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.025	0/3	756ms
Total de testes 3 Testes errados 3 Custo total $0.025 Tempo de resposta (médio) 756ms
#175	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/3	464ms
Total de testes 3 Testes errados 3 Custo total $0.021 Tempo de resposta (médio) 464ms
#177	North Mini Code none	Cohere	3.0	5.1	$0.000	0/3	14.7s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 14.7s
#178	MiniMax M2.7 medium	Minimax	3.0	5.0	$0.163	0/3	19.0s
Total de testes 3 Testes errados 3 Custo total $0.163 Tempo de resposta (médio) 19.0s
#179	DeepSeek V3.2 none	DeepSeek	2.9	5.0	$0.054	0/3	4.17s
Total de testes 3 Testes errados 3 Custo total $0.054 Tempo de resposta (médio) 4.17s
#180	GPT-4o-mini none	OpenAI	3.0	5.0	$0.010	0/3	637ms
Total de testes 3 Testes errados 3 Custo total $0.010 Tempo de resposta (médio) 637ms
#181	Qwen3.6 Plus Preview medium	Qwen	3.0	4.9	$0.000	0/3	22.1s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 22.1s

Ranking de Específico do domínio

Filtrar modelos

Melhores modelos por Pontuação de Específico do domínio

Pontuação de Específico do domínio vs custo total

Melhores modelos por Tempo de resposta (médio)