Ranking de modelos de Específico del dominio

Mira qué modelos de IA rinden mejor en Específico del dominio, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Promedio de Puntuación de Específico del dominio

4.7

Mejor modelo

Gemini 3.6 Flash 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta421 Con motivo de fallo Tiempo agotado43 Con motivo de fallo Formato extra17 Con motivo de fallo Sin respuesta8 Con motivo de fallo Error de API7 Con motivo de fallo No siguió las instrucciones1

216/216

Rango	Modelo	Empresa	Puntuación de Específico del dominio	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#82	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.093 Tiempo de respuesta (promedio) 6.48s
#84	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.101 Tiempo de respuesta (promedio) 0ms
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.467 Tiempo de respuesta (promedio) 29.0s
#87	GPT-5.6 Sol none	OpenAI	3.6	6.9	$0.524	0/3	1.43s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.524 Tiempo de respuesta (promedio) 1.43s
#89	Qwen3.6 Flash medium	Qwen	3.5	6.9	$0.738	0/3	14.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.738 Tiempo de respuesta (promedio) 14.6s
#90	Step 3.7 Flash high	Stepfun	4.1	6.9	$1.207	0/3	149.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $1.207 Tiempo de respuesta (promedio) 149.6s
#91	GPT-5.5 none	OpenAI	2.9	6.9	$0.544	0/3	1.31s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.544 Tiempo de respuesta (promedio) 1.31s
#95	Gemini 3.5 Flash-Lite low	Google	3.6	6.7	$0.145	0/3	3.63s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.145 Tiempo de respuesta (promedio) 3.63s
#96	LongCat 2.0 low	Meituan	3.0	6.7	$0.391	0/3	86.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.391 Tiempo de respuesta (promedio) 86.1s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	3.6	6.7	$0.476	0/3	21.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.476 Tiempo de respuesta (promedio) 21.6s
#100	Gemma 4 26B A4B medium	Google	2.9	6.6	$0.089	0/3	23.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.089 Tiempo de respuesta (promedio) 23.6s
#102	LongCat 2.0 high	Meituan	3.6	6.6	$0.469	0/3	400.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.469 Tiempo de respuesta (promedio) 400.3s
#104	Gemini 3.5 Flash-Lite medium	Google	2.9	6.5	$0.369	0/3	6.62s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.369 Tiempo de respuesta (promedio) 6.62s
#105	Qwen3.6 27B medium	Qwen	2.9	6.5	$0.779	0/3	73.4s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.779 Tiempo de respuesta (promedio) 73.4s
#108	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.068 Tiempo de respuesta (promedio) 65.7s

Ranking de Específico del dominio

Filtrar modelos

Mejores modelos por Puntuación de Específico del dominio

Puntuación de Específico del dominio vs costo total

Mejores modelos por Tiempo de respuesta (promedio)