Navegación
AI BENCHY
Your ad here

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Inception: Mercury 2

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica Seed-2.0-Lite Seed-2.0-Lite none Lanzamiento: 2026-02-14 Mercury 2 Mercury 2 medium Lanzamiento: 2026-02-24
Rango #45 #40
Puntaje prom. 4.9 5.3
Consistencia 7.4 8.4
Costo por resultado 0.214 0.631
Costo total $0.015 $0.045
Pruebas correctas
Tasa de aciertos por intento 56.3% 54.2%
Pruebas inestables 5 3
Ejecuciones totales 48 48
Tokens de salida 2,743 3,708
Tokens de razonamiento 0 45,921
Tiempo de respuesta (promedio) 2.49s 2.36s
Tiempo de respuesta (máximo) 6.70s 14.63s
Tiempo de respuesta (total) 39.91s 35.39s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Seed-2.0-Lite 10.0 4.6 22.2% 2 2.93s 703 0
Mercury 2 7.3 9.8 66.7% 0 1.30s 2,531 2,410
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Seed-2.0-Lite 10.0 10.0 0.0% 0 6.59s 498 0
Mercury 2 10.0 10.0 100.0% 0 3.28s 268 4,887
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Seed-2.0-Lite 9.9 10.0 100.0% 0 1.82s 246 0
Mercury 2 5.5 5.9 83.3% 1 1.11s 183 1,656
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Seed-2.0-Lite 10.0 7.2 22.2% 1 1.33s 17 0
Mercury 2 10.0 7.2 11.1% 1 6.48s 41 30,754
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Seed-2.0-Lite 10.0 10.0 100.0% 0 3.45s 294 0
Mercury 2 4.0 10.0 0.0% 0 821ms 137 542
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Seed-2.0-Lite 10.0 10.0 100.0% 0 1.06s 73 0
Mercury 2 10.0 10.0 100.0% 0 1.07s 14 958
Puzzle Solving Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Seed-2.0-Lite 4.0 4.4 55.6% 2 2.46s 620 0
Mercury 2 1.7 7.5 22.2% 1 934ms 354 2,758
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Seed-2.0-Lite 10.0 10.0 100.0% 0 3.94s 292 0
Mercury 2 10.0 10.0 100.0% 0 1.89s 180 1,956

Comparación rápida

Cambiar par de comparación