Ranking de modelos de Específico do domínio

Veja quais modelos de IA vão melhor em Específico do domínio, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Específico do domínio

4.7

Melhor modelo

Claude Sonnet 4.6 2.9

Motivos de falha

Com motivo de falha Resposta incorreta421 Com motivo de falha Tempo esgotado43 Com motivo de falha Formatação extra17 Com motivo de falha Sem resposta8 Com motivo de falha Erro de API7 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Específico do domínio	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	3/3	3.96s
Total de testes 3 Testes errados 0 Custo total $0.517 Tempo de resposta (médio) 3.96s
#101	GLM 5.2 none	Z.ai	5.3	6.6	$0.128	1/3	4.04s
Total de testes 3 Testes errados 2 Custo total $0.128 Tempo de resposta (médio) 4.04s
#179	DeepSeek V3.2 none	DeepSeek	2.9	5.0	$0.054	0/3	4.17s
Total de testes 3 Testes errados 3 Custo total $0.054 Tempo de resposta (médio) 4.17s
#68	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.3	$0.115	0/3	4.21s
Total de testes 3 Testes errados 3 Custo total $0.115 Tempo de resposta (médio) 4.21s
#161	Kimi K2.5 none	Moonshot AI	5.3	5.5	$0.127	1/3	4.38s
Total de testes 3 Testes errados 2 Custo total $0.127 Tempo de resposta (médio) 4.38s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	5.3	6.1	$0.122	1/3	4.43s
Total de testes 3 Testes errados 2 Custo total $0.122 Tempo de resposta (médio) 4.43s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	3.0	5.6	$0.048	0/3	4.87s
Total de testes 3 Testes errados 3 Custo total $0.048 Tempo de resposta (médio) 4.87s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/3	4.95s
Total de testes 3 Testes errados 3 Custo total $0.002 Tempo de resposta (médio) 4.95s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2.9	5.4	$0.041	0/3	4.99s
Total de testes 3 Testes errados 3 Custo total $0.041 Tempo de resposta (médio) 4.99s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
Total de testes 3 Testes errados 1 Custo total $0.642 Tempo de resposta (médio) 5.24s
#198	Laguna M.1 none	Poolside	3.6	4.4	$0.009	0/3	5.50s
Total de testes 3 Testes errados 3 Custo total $0.009 Tempo de resposta (médio) 5.50s
#173	Mistral Small 4 medium	Mistral	5.3	5.1	$0.096	1/3	6.11s
Total de testes 3 Testes errados 2 Custo total $0.096 Tempo de resposta (médio) 6.11s
#183	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.008	0/3	6.23s
Total de testes 3 Testes errados 3 Custo total $0.008 Tempo de resposta (médio) 6.23s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	6.24s
Total de testes 3 Testes errados 3 Custo total $0.067 Tempo de resposta (médio) 6.24s
#82	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
Total de testes 3 Testes errados 3 Custo total $0.093 Tempo de resposta (médio) 6.48s

Ranking de Específico do domínio

Filtrar modelos

Melhores modelos por Pontuação de Específico do domínio

Pontuação de Específico do domínio vs custo total

Melhores modelos por Tempo de resposta (médio)