Navegación
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Modelos comparados

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-16

Métrica Nemotron 3 Super Nemotron 3 Super medium Lanzamiento: 2026-03-11 Disponible gratis Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lanzamiento: 2026-02-24 Elephant Elephant medium Lanzamiento: 2026-04-14 gpt-oss-120b gpt-oss-120b medium Lanzamiento: 2025-08-05 Disponible gratis
Puntuación 6.7 8.1 5.2 5.8
Rango #50 #19 #79 #67
Consistencia 8.7 8.6 9.6 7.2
Pruebas correctas
Tasa de aciertos por intento 55.6% 79.6% 29.6% 51.9%
Pruebas inestables 3 3 1 6
Ejecuciones totales 52 54 54 54
Costo por resultado 0.000 4.060 0.000 0.144
Costo total $0.000 $0.528 $0.000 $0.011
Precio de entrada $0.100 / 1M $0.260 / 1M $0.000 / 1M $0.039 / 1M
Precio de salida $0.500 / 1M $2.080 / 1M $0.000 / 1M $0.190 / 1M
Tokens de salida 11,947 17,635 2,596 13,493
Tokens de razonamiento 29,768 162,668 0 36,879
Tiempo de respuesta (promedio) 19.06s 31.38s 1.27s 16.08s
Tiempo de respuesta (máximo) 87.80s 119.29s 3.70s 50.92s
Tiempo de respuesta (total) 305.04s 564.84s 22.82s 176.88s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Nemotron 3 Super 10.0 10.0 100.0% 0 10.08s 1,776 3,345
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.75s 269 16,835
Elephant 6.6 10.0 50.0% 0 1.19s 815 0
gpt-oss-120b 6.7 9.9 50.0% 0 10.21s 3,518 2,177
Programación Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Nemotron 3 Super 3.0 10.0 0.0% 0 0ms 0 0
Qwen3.5-122B-A10B 4.7 1.6 66.7% 1 70.98s 322 10,694
Elephant 5.1 3.3 33.3% 1 1.30s 365 0
gpt-oss-120b 4.3 1.1 66.7% 1 26.33s 228 2,549
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Nemotron 3 Super 10.0 10.0 100.0% 0 87.80s 2,021 9,996
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 107.79s 483 11,337
Elephant 3.0 10.0 0.0% 0 3.70s 562 0
gpt-oss-120b 10.0 10.0 100.0% 0 31.18s 694 5,072
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Nemotron 3 Super 10.0 10.0 100.0% 0 18.16s 877 2,607
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 23.41s 270 16,558
Elephant 6.5 10.0 50.0% 0 979ms 246 0
gpt-oss-120b 6.4 5.9 66.7% 1 1.98s 241 1,114
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Nemotron 3 Super 2.9 4.4 22.2% 2 16.19s 5,255 6,072
Qwen3.5-122B-A10B 2.9 7.2 11.1% 1 63.40s 15,537 64,889
Elephant 3.0 10.0 0.0% 0 925ms 24 0
gpt-oss-120b 2.9 4.4 22.2% 2 50.92s 6,784 20,606
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Nemotron 3 Super 3.8 9.9 0.0% 0 27.86s 104 1,149
Qwen3.5-122B-A10B 3.4 2.2 33.3% 1 34.11s 66 7,592
Elephant 4.3 10.0 0.0% 0 920ms 105 0
gpt-oss-120b 4.3 10.0 0.0% 0 7.90s 107 387
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Nemotron 3 Super 7.2 6.5 66.7% 1 7.72s 1,042 2,479
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.88s 77 7,372
Elephant 9.8 10.0 100.0% 0 987ms 82 0
gpt-oss-120b 9.9 10.0 100.0% 0 7.63s 126 1,799
Resolución de acertijos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Nemotron 3 Super 3.5 9.8 0.0% 0 8.39s 602 2,151
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 17.18s 289 26,165
Elephant 3.7 10.0 0.0% 0 867ms 166 0
gpt-oss-120b 3.2 4.7 22.2% 2 11.80s 1,508 2,092
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Nemotron 3 Super 10.0 10.0 100.0% 0 39.75s 270 1,969
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 4.60s 322 1,226
Elephant 3.0 10.0 0.0% 0 2.83s 231 0
gpt-oss-120b 9.8 10.0 100.0% 0 6.91s 287 1,083

Comparación rápida

Cambiar par de comparación