Ranking de modelos de Específico del dominio

Mira qué modelos de IA rinden mejor en Específico del dominio, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Promedio de Puntuación de Específico del dominio

4.7

Mejor modelo

Gemini 3 Flash Preview 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta412 Con motivo de fallo Tiempo agotado43 Con motivo de fallo Formato extra17 Con motivo de fallo Sin respuesta8 Con motivo de fallo Error de API7 Con motivo de fallo No siguió las instrucciones1

210/210

Rango	Modelo	Empresa	Puntuación de Específico del dominio	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	15.3s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.742 Tiempo de respuesta (promedio) 15.3s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	899ms
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.300 Tiempo de respuesta (promedio) 899ms
#209	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.020 Tiempo de respuesta (promedio) 34.5s
#2	Gemini 3.5 Flash high	Google	7.6	9.5	$1.976	2/3	14.1s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.976 Tiempo de respuesta (promedio) 14.1s
#7	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.361 Tiempo de respuesta (promedio) 32.7s
#9	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.642 Tiempo de respuesta (promedio) 5.24s
#11	Gemini 3.5 Flash low	Google	7.7	8.9	$0.433	2/3	3.39s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.433 Tiempo de respuesta (promedio) 3.39s
#15	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$1.477	2/3	1.17s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.477 Tiempo de respuesta (promedio) 1.17s
#23	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.922 Tiempo de respuesta (promedio) 20.4s
#28	Inkling high	Thinkingmachines	7.7	8.0	$1.006	2/3	186.4s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.006 Tiempo de respuesta (promedio) 186.4s
#29	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.515 Tiempo de respuesta (promedio) 48.3s
#44	GPT-5.6 Luna high	OpenAI	7.7	7.7	$1.017	2/3	79.0s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.017 Tiempo de respuesta (promedio) 79.0s
#59	Qwen3.7 Max none	Qwen	7.7	7.4	$0.197	2/3	975ms
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.197 Tiempo de respuesta (promedio) 975ms
#63	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	3.54s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.661 Tiempo de respuesta (promedio) 3.54s
#79	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.079 Tiempo de respuesta (promedio) 10.6s

Ranking de Específico del dominio

Filtrar modelos

Mejores modelos por Puntuación de Específico del dominio

Puntuación de Específico del dominio vs costo total

Mejores modelos por Tiempo de respuesta (promedio)