Ranking de modelos de Específico do domínio

Veja quais modelos de IA vão melhor em Específico do domínio, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Métrica ↑.

Modelos exibidos

Média de Pontuação de Específico do domínio

4.7

Melhor modelo

GLM 5 Turbo 2.9

Motivos de falha

Com motivo de falha Resposta incorreta412 Com motivo de falha Tempo esgotado43 Com motivo de falha Formatação extra17 Com motivo de falha Sem resposta8 Com motivo de falha Erro de API7 Com motivo de falha Não seguiu as instruções1

210/210

Posição	Modelo	Empresa	Pontuação de Específico do domínio	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#65	Gemini 3.1 Flash Lite medium	Google	2.9	7.3	$0.117	0/3	3.16s
Total de testes 3 Testes errados 3 Custo total $0.117 Tempo de resposta (médio) 3.16s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	2.9	7.2	$0.317	0/3	53.1s
Total de testes 3 Testes errados 3 Custo total $0.317 Tempo de resposta (médio) 53.1s
#72	Qwen3.5-122B-A10B medium	Qwen	2.9	7.1	$1.046	0/3	63.4s
Total de testes 3 Testes errados 3 Custo total $1.046 Tempo de resposta (médio) 63.4s
#78	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
Total de testes 3 Testes errados 3 Custo total $0.093 Tempo de resposta (médio) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
Total de testes 3 Testes errados 3 Custo total $0.467 Tempo de resposta (médio) 29.0s
#87	GPT-5.5 none	OpenAI	2.9	6.9	$0.544	0/3	1.31s
Total de testes 3 Testes errados 3 Custo total $0.544 Tempo de resposta (médio) 1.31s
#99	Qwen3.6 27B medium	Qwen	2.9	6.5	$0.779	0/3	73.4s
Total de testes 3 Testes errados 3 Custo total $0.779 Tempo de resposta (médio) 73.4s
#102	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
Total de testes 3 Testes errados 3 Custo total $0.068 Tempo de resposta (médio) 65.7s
#120	Gemini 3.1 Flash Lite minimal	Google	2.9	6.1	$0.047	0/3	1.02s
Total de testes 3 Testes errados 3 Custo total $0.047 Tempo de resposta (médio) 1.02s
#122	Gemini 3.1 Flash Lite none	Google	2.9	6.1	$0.046	0/3	762ms
Total de testes 3 Testes errados 3 Custo total $0.046 Tempo de resposta (médio) 762ms
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2.9	5.6	$0.077	0/3	7.47s
Total de testes 3 Testes errados 3 Custo total $0.077 Tempo de resposta (médio) 7.47s
#151	GLM 5.1 none	Z.ai	2.9	5.5	$0.164	0/3	1.99s
Total de testes 3 Testes errados 3 Custo total $0.164 Tempo de resposta (médio) 1.99s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2.9	5.4	$0.041	0/3	4.99s
Total de testes 3 Testes errados 3 Custo total $0.041 Tempo de resposta (médio) 4.99s
#159	GPT-5.6 Luna none	OpenAI	2.9	5.4	$0.142	0/3	737ms
Total de testes 3 Testes errados 3 Custo total $0.142 Tempo de resposta (médio) 737ms
#173	DeepSeek V3.2 none	DeepSeek	2.9	5.0	$0.054	0/3	4.17s
Total de testes 3 Testes errados 3 Custo total $0.054 Tempo de resposta (médio) 4.17s

Ranking de Específico do domínio

Filtrar modelos

Melhores modelos por Pontuação de Específico do domínio

Pontuação de Específico do domínio vs custo total

Melhores modelos por Tempo de resposta (médio)