AI BENCHY Compare

Trinity Large Preview vs OpenAI: gpt-oss-120b

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-03

Métrica	Trinity Large Preview Trinity Large Preview none Lanzamiento: 2026-01-27	gpt-oss-120b gpt-oss-120b medium Lanzamiento: 2025-08-05 Disponible gratis

Métrica	Trinity Large Preview Trinity Large Preview none Lanzamiento: 2026-01-27	gpt-oss-120b gpt-oss-120b medium Lanzamiento: 2025-08-05 Disponible gratis
Puntuación	4.7	5.9
Rango	#148	#103
Fiabilidad	10.0	10.0
Consistencia	9.3	7.9
Pruebas correctas
Tasa de aciertos por intento	23.3%	50.0%
Pruebas inestables	2	5
Ejecuciones totales	60	60
Costo por resultado	0.017	0.151
Costo total	$0.008	$0.012
Precio de entrada	$0.243 / 1M	$0.039 / 1M
Precio de salida	$0.243 / 1M	$0.180 / 1M
Total de tokens de entrada	29,828	36,355
Tokens de salida	2,169	17,495
Tokens de razonamiento	0	46,878
Tiempo de respuesta (promedio)	2.98s	22.41s
Tiempo de respuesta (máximo)	14.34s	68.16s
Tiempo de respuesta (total)	56.57s	291.35s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	3.1	10.0	0.0%	0		2.07s	651	550	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	4.0	6.6	16.7%	1		14.34s	738	397	0
gpt-oss-120b	3.9	5.6	33.3%	1		47.24s	5,053	847	8,618

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	3.0	10.0	0.0%	0		8.91s	12,053	294	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	11,535	694	5,072

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	10.0	10.0	100.0%	0		3.26s	6,900	186	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	5.3	10.0	33.3%	0		877ms	738	25	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	4.5	10.0	0.0%	0		873ms	498	104	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	3.5	10.0	0.0%	0		822ms	678	63	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	3.6	7.7	11.1%	1		1.97s	669	265	0
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	6,699	267	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Trinity Large Preview	3.0	10.0	0.0%	0		777ms	204	18	0
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758

Comparación rápida

Cambiar par de comparación

gpt-oss-120bmediumDisponible gratisvsQwen3.5-Flashnone Trinity Large PreviewnonevsQwen3 Coder Nextmedium gpt-oss-120bmediumDisponible gratisvsGLM 5V Turbonone Seed-2.0-Litenonevsgpt-oss-120bmediumDisponible gratis gpt-oss-120bmediumDisponible gratisvsGLM 5.1none DeepSeek V4 Prononevsgpt-oss-120bmediumDisponible gratis gpt-oss-120bmediumDisponible gratisvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumDisponible gratisvsQwen3.5-35B-A3Bnone gpt-oss-120bmediumDisponible gratisvsQwen3.5-27Bnone gpt-oss-120bmediumDisponible gratisvsQwen3.6 27Bnone DeepSeek V4 Prohighvsgpt-oss-120bmediumDisponible gratis gpt-oss-120bmediumDisponible gratisvsMimo V2 PROnone