Modelos comparados

Comparación benchmark Nemotron 3 Super (medium) vs Qwen3.5-122B-A10B (medium) vs Elephant Alpha (medium) vs gpt-oss-120b (medium)Qwen3.5-122B-A10B (medium) lidera en Puntuación con 7.1. Qwen3.5-122B-A10B (medium) lidera en Fiabilidad con 10.0. Elephant Alpha (medium) tiene el Costo total más bajo con $0.000. Elephant Alpha (medium) es el más rápido con 1.27s.

Modelo recomendadogpt-oss-120b (medium)Ofrece el mejor equilibrio general: puntuación competitiva (6.1), menor coste que los otros modelos de esta comparación y tiempo de respuesta equilibrado.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-17

Métrica	Nemotron 3 Super Nemotron 3 Super medium Lanzamiento: 2026-03-11 Disponible gratis	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lanzamiento: 2026-02-24	Elephant Alpha Elephant Alpha medium Lanzamiento: 2026-04-14	gpt-oss-120b gpt-oss-120b medium Lanzamiento: 2025-08-05

Métrica	Nemotron 3 Super Nemotron 3 Super medium Lanzamiento: 2026-03-11 Disponible gratis	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lanzamiento: 2026-02-24	Elephant Alpha Elephant Alpha medium Lanzamiento: 2026-04-14	gpt-oss-120b gpt-oss-120b medium Lanzamiento: 2025-08-05
Puntuación	5.7	7.1	4.3	6.1
Rango	#133	#69	#187	#115
Fiabilidad	8.7	10.0	N/D	10.0
Consistencia	8.9	8.5	9.2	8.0
Pruebas correctas
Tasa de aciertos por intento	40.9%	71.2%	28.8%	50.0%
Pruebas inestables	3	4	1	5
Ejecuciones totales	66	66	63	66
Costo por resultado	0.004	8.509	0.000	0.221
Costo total	$0.066	$1.046	$0.000	$0.019
Precio de entrada	$0.210 / 1M	$0.260 / 1M	$0.000 / 1M	$0.037 / 1M
Precio de salida	$0.455 / 1M	$2.080 / 1M	$0.000 / 1M	$0.170 / 1M
Total de tokens de entrada	81,429	124,771	33,744	108,747
Tokens de salida	18,371	44,077	2,596	29,772
Tokens de razonamiento	98,853	443,141	0	68,044
Tiempo de respuesta (promedio)	51.99s	64.16s	1.27s	21.91s
Tiempo de respuesta (máximo)	431.98s	519.30s	3.70s	68.16s
Tiempo de respuesta (total)	1039.89s	1411.60s	22.82s	328.70s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#133 Nemotron 3 Super

medium

Coste: $0.000
Tiempo: 272.6s
Tokens: 5,296 tok

#69 Qwen3.5-122B-A10B

medium

Coste: $0.019
Tiempo: 48.7s
Tokens: 6,034 tok

#187 Elephant Alpha

medium

Elephant Alpha was a stealth model revealed on April 21st as Ling-2.6-flash. Find it here: https://openrouter.ai/inclusionai/ling-2.6-flash:free

Coste: $0.000
Tiempo: 0.1s
Tokens: 0 tok

#115 gpt-oss-120b

medium

Coste: $0.001
Tiempo: 26.7s
Tokens: 555 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Categoría:

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	8.3	10.0	75.0%	7.85s	686	748	1,305
Qwen3.5-122B-A10B	10.0	10.0	100.0%	9.75s	672	269	16,835
Elephant Alpha	6.6	10.0	50.0%	1.19s	726	815	0
gpt-oss-120b	6.7	9.9	50.0%	10.21s	1,314	3,518	2,177

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	3.1	10.0	0.0%	0	147.32s	2,275	797	4,424
Qwen3.5-122B-A10B	6.0	7.2	55.6%	1	114.48s	7,630	8,057	82,578
Elephant Alpha	3.7	7.8	11.1%	1	1.30s	813	365	0
gpt-oss-120b	5.9	7.0	55.6%	1	38.37s	7,782	3,365	11,973

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	6.4	5.8	66.7%	1	259.89s	59,463	5,542	75,095
Qwen3.5-122B-A10B	6.4	5.8	66.7%	1	313.55s	97,886	18,373	203,450
Elephant Alpha	1.5	5.0	0.0%	0	3.70s	14,046	562	0
gpt-oss-120b	6.5	10.0	50.0%	0	23.96s	81,198	10,453	22,883

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	10.0	10.0	100.0%	0	18.16s	7,944	877	2,607
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0	23.41s	7,782	270	16,558
Elephant Alpha	6.5	10.0	50.0%	0	979ms	8,004	246	0
gpt-oss-120b	6.4	5.9	66.7%	1	1.98s	7,476	241	1,114

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	2.9	4.4	22.2%	2	16.19s	456	5,255	6,072
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1	63.40s	771	15,537	64,889
Elephant Alpha	3.0	10.0	0.0%	0	925ms	810	24	0
gpt-oss-120b	2.9	4.4	22.2%	2	50.92s	1,266	6,784	20,606

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	4.1	10.0	0.0%	0	6.91s	492	105	363
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1	34.11s	344	66	7,592
Elephant Alpha	4.3	10.0	0.0%	0	920ms	540	105	0
gpt-oss-120b	4.3	10.0	0.0%	0	7.90s	659	107	387

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	7.3	10.0	50.0%	6.97s	723	956	2,383
Qwen3.5-122B-A10B	10.0	10.0	100.0%	9.88s	593	77	7,372
Elephant Alpha	9.8	10.0	100.0%	987ms	732	82	0
gpt-oss-120b	9.9	10.0	100.0%	7.63s	1,036	126	1,799

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	3.0	10.0	0.0%	0	3.15s	708	570	1,322
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0	17.89s	696	284	27,575
Elephant Alpha	5.3	10.0	33.3%	0	868ms	729	166	0
gpt-oss-120b	5.3	7.2	44.4%	1	21.71s	1,190	1,790	2,264

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	10.0	10.0	100.0%	39.75s	8,544	270	1,969
Qwen3.5-122B-A10B	10.0	10.0	100.0%	4.60s	8,193	322	1,226
Elephant Alpha	3.0	10.0	0.0%	2.83s	7,344	231	0
gpt-oss-120b	9.8	10.0	100.0%	6.91s	6,514	287	1,083

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Nemotron 3 Super	3.0	10.0	0.0%	55.32s	138	3,251	3,313
Qwen3.5-122B-A10B	3.0	10.0	0.0%	52.87s	204	822	15,066
Elephant Alpha	3.0	10.0	0.0%	0ms	0	0	0
gpt-oss-120b	3.0	10.0	0.0%	26.51s	312	3,101	3,758

Comparación rápida

Cambiar par de comparación

Gemini 3.1 Flash Litenonevsgpt-oss-120bmedium Nemotron 3 SupermediumDisponible gratisvsGLM 5none gpt-oss-120bmediumvsQwen3.6 Flashnone Gemini 3.1 Flash Liteminimalvsgpt-oss-120bmedium gpt-oss-120bmediumvsQwen3.5-Flashnone gpt-oss-120bmediumvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumvsQwen3.5-35B-A3Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmedium Nemotron 3 UltranoneDisponible gratisvsgpt-oss-120bmedium Nemotron 3 SupermediumDisponible gratisvsGPT-5.4none Kimi K2.6nonevsNemotron 3 SupermediumDisponible gratis Nemotron 3 SupermediumDisponible gratisvsQwen3.5-122B-A10Bnone