AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs OpenAI: gpt-oss-120b

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-01

Métrica	DeepSeek V3.2 DeepSeek V3.2 none Lanzamiento: 2025-12-01	gpt-oss-120b gpt-oss-120b medium Lanzamiento: 2025-08-05 Disponible gratis

Métrica	DeepSeek V3.2 DeepSeek V3.2 none Lanzamiento: 2025-12-01	gpt-oss-120b gpt-oss-120b medium Lanzamiento: 2025-08-05 Disponible gratis
Puntuación	5.6	5.9
Rango	#120	#103
Fiabilidad	10.0	10.0
Consistencia	8.3	7.9
Pruebas correctas
Tasa de aciertos por intento	41.7%	50.0%
Pruebas inestables	6	5
Ejecuciones totales	60	60
Costo por resultado	0.222	0.151
Costo total	$0.018	$0.012
Precio de entrada	$0.252 / 1M	$0.000 / 1M
Precio de salida	$0.378 / 1M	$0.000 / 1M
Tokens de salida	11,159	17,495
Tokens de razonamiento	0	46,878
Tiempo de respuesta (promedio)	14.43s	22.41s
Tiempo de respuesta (máximo)	115.89s	68.16s
Tiempo de respuesta (total)	288.55s	291.35s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	3.2	8.2	8.3%	1		9.35s	1,073	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	3.1	5.4	16.7%	1		20.87s	4,522	0
gpt-oss-120b	3.9	5.6	33.3%	1		47.24s	847	8,618

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	2.9	6.9	11.1%	1		4.17s	21	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	6.8	10.0	66.7%	1		9.32s	43	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	8.3	10.0	77.8%	1		6.91s	298	0
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,790	2,264

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V3.2	3.0	10.0	0.0%	0		17.23s	17	0
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	3,101	3,758

Comparación rápida

Cambiar par de comparación

gpt-oss-120bmediumDisponible gratisvsQwen3.5-Flashnone gpt-oss-120bmediumDisponible gratisvsGLM 5V Turbonone Seed-2.0-Litenonevsgpt-oss-120bmediumDisponible gratis DeepSeek V4 Prononevsgpt-oss-120bmediumDisponible gratis gpt-oss-120bmediumDisponible gratisvsGLM 5.1none DeepSeek V3.2nonevsMiniMax M2.5medium gpt-oss-120bmediumDisponible gratisvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumDisponible gratisvsQwen3.5-35B-A3Bnone gpt-oss-120bmediumDisponible gratisvsQwen3.5-27Bnone gpt-oss-120bmediumDisponible gratisvsQwen3.6 27Bnone DeepSeek V3.2nonevsMistral Small 4medium CobuddymediumvsDeepSeek V3.2none