Ranking de modelos de Específico do domínio

Veja quais modelos de IA vão melhor em Específico do domínio, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Métrica ↑.

Modelos exibidos

Média de Pontuação de Específico do domínio

4.7

Melhor modelo

GLM 5 Turbo 2.9

Motivos de falha

Com motivo de falha Resposta incorreta412 Com motivo de falha Tempo esgotado43 Com motivo de falha Formatação extra17 Com motivo de falha Sem resposta8 Com motivo de falha Erro de API7 Com motivo de falha Não seguiu as instruções1

210/210

Posição	Modelo	Empresa	Pontuação de Específico do domínio	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#181	Grok 4.20 Multi Agent Beta medium	X AI	2.9	4.8	$5.599	0/3	24.7s
Total de testes 3 Testes errados 3 Custo total $5.599 Tempo de resposta (médio) 24.7s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	6.24s
Total de testes 3 Testes errados 3 Custo total $0.067 Tempo de resposta (médio) 6.24s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	56.7s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 56.7s
#20	Grok 4.5 low	X AI	3.0	8.4	$0.935	0/3	72.6s
Total de testes 3 Testes errados 3 Custo total $0.935 Tempo de resposta (médio) 72.6s
#43	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$3.059	0/3	83.4s
Total de testes 3 Testes errados 3 Custo total $3.059 Tempo de resposta (médio) 83.4s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.3	$0.115	0/3	4.21s
Total de testes 3 Testes errados 3 Custo total $0.115 Tempo de resposta (médio) 4.21s
#71	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.106	0/3	868ms
Total de testes 3 Testes errados 3 Custo total $0.106 Tempo de resposta (médio) 868ms
#80	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
Total de testes 3 Testes errados 3 Custo total $0.101 Tempo de resposta (médio) 0ms
#91	LongCat 2.0 low	Meituan	3.0	6.7	$0.391	0/3	86.1s
Total de testes 3 Testes errados 3 Custo total $0.391 Tempo de resposta (médio) 86.1s
#103	Qwen3.5-27B none	Qwen	3.0	6.5	$0.090	0/3	540ms
Total de testes 3 Testes errados 3 Custo total $0.090 Tempo de resposta (médio) 540ms
#111	LongCat 2.0 none	Meituan	3.0	6.3	$0.044	0/3	1.72s
Total de testes 3 Testes errados 3 Custo total $0.044 Tempo de resposta (médio) 1.72s
#134	Mimo V2 Omni medium	Xiaomi	3.0	5.9	$0.683	0/3	47.9s
Total de testes 3 Testes errados 3 Custo total $0.683 Tempo de resposta (médio) 47.9s
#141	GLM 5 none	Z.ai	3.0	5.7	$0.041	0/3	2.24s
Total de testes 3 Testes errados 3 Custo total $0.041 Tempo de resposta (médio) 2.24s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3.0	5.6	$0.048	0/3	4.87s
Total de testes 3 Testes errados 3 Custo total $0.048 Tempo de resposta (médio) 4.87s
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/3	1.04s
Total de testes 3 Testes errados 3 Custo total $0.016 Tempo de resposta (médio) 1.04s

Ranking de Específico do domínio

Filtrar modelos

Melhores modelos por Pontuação de Específico do domínio

Pontuação de Específico do domínio vs custo total

Melhores modelos por Tempo de resposta (médio)