Ranking de modelos de Específico do domínio

Veja quais modelos de IA vão melhor em Específico do domínio, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↓.

Modelos exibidos

Média de Pontuação de Específico do domínio

4.7

Melhor modelo

Gemini 3.6 Flash 10.0

Motivos de falha

Com motivo de falha Resposta incorreta421 Com motivo de falha Tempo esgotado43 Com motivo de falha Formatação extra17 Com motivo de falha Sem resposta8 Com motivo de falha Erro de API7 Com motivo de falha Não seguiu as instruções1

216/216

Posição	Modelo	Empresa	Pontuação de Específico do domínio	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#82	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
Total de testes 3 Testes errados 3 Custo total $0.093 Tempo de resposta (médio) 6.48s
#84	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
Total de testes 3 Testes errados 3 Custo total $0.101 Tempo de resposta (médio) 0ms
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
Total de testes 3 Testes errados 3 Custo total $0.467 Tempo de resposta (médio) 29.0s
#87	GPT-5.6 Sol none	OpenAI	3.6	6.9	$0.524	0/3	1.43s
Total de testes 3 Testes errados 3 Custo total $0.524 Tempo de resposta (médio) 1.43s
#89	Qwen3.6 Flash medium	Qwen	3.5	6.9	$0.738	0/3	14.6s
Total de testes 3 Testes errados 3 Custo total $0.738 Tempo de resposta (médio) 14.6s
#90	Step 3.7 Flash high	Stepfun	4.1	6.9	$1.207	0/3	149.6s
Total de testes 3 Testes errados 3 Custo total $1.207 Tempo de resposta (médio) 149.6s
#91	GPT-5.5 none	OpenAI	2.9	6.9	$0.544	0/3	1.31s
Total de testes 3 Testes errados 3 Custo total $0.544 Tempo de resposta (médio) 1.31s
#95	Gemini 3.5 Flash-Lite low	Google	3.6	6.7	$0.145	0/3	3.63s
Total de testes 3 Testes errados 3 Custo total $0.145 Tempo de resposta (médio) 3.63s
#96	LongCat 2.0 low	Meituan	3.0	6.7	$0.391	0/3	86.1s
Total de testes 3 Testes errados 3 Custo total $0.391 Tempo de resposta (médio) 86.1s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	3.6	6.7	$0.476	0/3	21.6s
Total de testes 3 Testes errados 3 Custo total $0.476 Tempo de resposta (médio) 21.6s
#100	Gemma 4 26B A4B medium	Google	2.9	6.6	$0.089	0/3	23.6s
Total de testes 3 Testes errados 3 Custo total $0.089 Tempo de resposta (médio) 23.6s
#102	LongCat 2.0 high	Meituan	3.6	6.6	$0.469	0/3	400.3s
Total de testes 3 Testes errados 3 Custo total $0.469 Tempo de resposta (médio) 400.3s
#104	Gemini 3.5 Flash-Lite medium	Google	2.9	6.5	$0.369	0/3	6.62s
Total de testes 3 Testes errados 3 Custo total $0.369 Tempo de resposta (médio) 6.62s
#105	Qwen3.6 27B medium	Qwen	2.9	6.5	$0.779	0/3	73.4s
Total de testes 3 Testes errados 3 Custo total $0.779 Tempo de resposta (médio) 73.4s
#108	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
Total de testes 3 Testes errados 3 Custo total $0.068 Tempo de resposta (médio) 65.7s

Ranking de Específico do domínio

Filtrar modelos

Melhores modelos por Pontuação de Específico do domínio

Pontuação de Específico do domínio vs custo total

Melhores modelos por Tempo de resposta (médio)