Ranking de modelos de Específico do domínio

Veja quais modelos de IA vão melhor em Específico do domínio, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Específico do domínio

4.7

Melhor modelo

Kimi K3 5.9

Motivos de falha

Com motivo de falha Resposta incorreta421 Com motivo de falha Tempo esgotado43 Com motivo de falha Formatação extra17 Com motivo de falha Sem resposta8 Com motivo de falha Erro de API7 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Específico do domínio	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#107	MiMo-V2.5 medium	Xiaomi	5.3	6.5	$0.082	1/3	34.5s
Total de testes 3 Testes errados 2 Custo total $0.082 Tempo de resposta (médio) 34.5s
#10	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
Total de testes 3 Testes errados 1 Custo total $1.361 Tempo de resposta (médio) 32.7s
#78	GLM 5.1 medium	Z.ai	5.3	7.1	$0.535	1/3	29.8s
Total de testes 3 Testes errados 2 Custo total $0.535 Tempo de resposta (médio) 29.8s
#27	Muse Spark 1.1 low	Meta	2.9	8.3	$0.647	0/3	29.7s
Total de testes 3 Testes errados 3 Custo total $0.647 Tempo de resposta (médio) 29.7s
#41	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.405	0/3	29.6s
Total de testes 3 Testes errados 3 Custo total $0.405 Tempo de resposta (médio) 29.6s
#5	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
Total de testes 3 Testes errados 2 Custo total $0.971 Tempo de resposta (médio) 29.1s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
Total de testes 3 Testes errados 3 Custo total $0.467 Tempo de resposta (médio) 29.0s
#9	GPT-5.5 low	OpenAI	5.3	9.3	$1.253	1/3	28.1s
Total de testes 3 Testes errados 2 Custo total $1.253 Tempo de resposta (médio) 28.1s
#79	Grok 4.20 medium	X AI	5.3	7.1	$0.777	1/3	27.0s
Total de testes 3 Testes errados 2 Custo total $0.777 Tempo de resposta (médio) 27.0s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	3/3	26.0s
Total de testes 3 Testes errados 0 Custo total $1.785 Tempo de resposta (médio) 26.0s
#11	Qwen3.7 Max medium	Qwen	5.9	9.2	$1.116	1/3	24.9s
Total de testes 3 Testes errados 2 Custo total $1.116 Tempo de resposta (médio) 24.9s
#55	Nemotron 3 Ultra medium	NVIDIA	3.5	7.5	$0.774	0/3	24.9s
Total de testes 3 Testes errados 3 Custo total $0.774 Tempo de resposta (médio) 24.9s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2.9	4.8	$5.599	0/3	24.7s
Total de testes 3 Testes errados 3 Custo total $5.599 Tempo de resposta (médio) 24.7s
#80	DeepSeek V3.2 medium	DeepSeek	2.9	7.0	$0.078	0/3	24.3s
Total de testes 3 Testes errados 3 Custo total $0.078 Tempo de resposta (médio) 24.3s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	24.1s
Total de testes 3 Testes errados 2 Custo total $0.033 Tempo de resposta (médio) 24.1s

Ranking de Específico do domínio

Filtrar modelos

Melhores modelos por Pontuação de Específico do domínio

Pontuação de Específico do domínio vs custo total

Melhores modelos por Tempo de resposta (médio)