AI BENCHY Compare

DeepSeek: DeepSeek V4 Flash vs IBM: Granite 4.1 8B

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-05-29

Métrica	DeepSeek V4 Flash DeepSeek V4 Flash none Lanzamiento: 2026-04-24 Disponible gratis	Granite 4.1 8B Granite 4.1 8B none Lanzamiento: 2026-05-01

Métrica	DeepSeek V4 Flash DeepSeek V4 Flash none Lanzamiento: 2026-04-24 Disponible gratis	Granite 4.1 8B Granite 4.1 8B none Lanzamiento: 2026-05-01
Puntuación	5.1	4.1
Rango	#137	#158
Fiabilidad	10.0	10.0
Consistencia	8.8	10.0
Pruebas correctas
Tasa de aciertos por intento	31.7%	10.0%
Pruebas inestables	3	0
Ejecuciones totales	60	60
Costo por resultado	0.198	0.122
Costo total	$0.010	$0.003
Precio de entrada	$0.100 / 1M	$0.050 / 1M
Precio de salida	$0.200 / 1M	$0.100 / 1M
Tokens de salida	13,700	2,743
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	27.97s	719ms
Tiempo de respuesta (máximo)	111.96s	2.17s
Tiempo de respuesta (total)	559.36s	14.37s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	3.0	10.0	0.0%	0		20.18s	174	0
Granite 4.1 8B	4.9	10.0	25.0%	0		844ms	903	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	4.8	6.0	16.7%	1		24.47s	9,707	0
Granite 4.1 8B	5.2	10.0	0.0%	0		706ms	357	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	4.5	2.1	66.7%	1		111.96s	2,664	0
Granite 4.1 8B	3.0	10.0	0.0%	0		1.88s	396	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	10.0	10.0	100.0%	0		23.79s	195	0
Granite 4.1 8B	3.0	10.0	0.0%	0		575ms	195	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	5.3	10.0	33.3%	0		19.73s	18	0
Granite 4.1 8B	3.0	10.0	0.0%	0		357ms	24	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	4.2	9.9	0.0%	0		23.74s	67	0
Granite 4.1 8B	4.0	10.0	0.0%	0		499ms	115	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	6.5	10.0	50.0%	0		17.54s	321	0
Granite 4.1 8B	3.6	9.9	0.0%	0		344ms	66	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	3.1	7.3	11.1%	1		23.72s	207	0
Granite 4.1 8B	3.2	10.0	0.0%	0		608ms	432	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	10.0	10.0	100.0%	0		77.93s	327	0
Granite 4.1 8B	10.0	10.0	100.0%	0		2.17s	243	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
DeepSeek V4 Flash	3.0	10.0	0.0%	0		3.07s	20	0
Granite 4.1 8B	3.0	10.0	0.0%	0		306ms	12	0

Comparación rápida

Cambiar par de comparación

Granite 4.1 8BnonevsQwen3.5-9Bmedium DeepSeek V4 FlashnoneDisponible gratisvsMiniMax M2.7medium DeepSeek V4 FlashnoneDisponible gratisvsElephant Alphamedium DeepSeek V4 FlashnoneDisponible gratisvsMistral Small 4medium Granite 4.1 8BnonevsGLM 4.7 Flashmedium DeepSeek V4 FlashnoneDisponible gratisvsMiniMax M2.5mediumDisponible gratis DeepSeek V4 FlashnoneDisponible gratisvsQwen3 Coder Nextmedium Granite 4.1 8BnonevsQwen3 Coder Nextmedium DeepSeek V4 FlashnoneDisponible gratisvsGLM 4.7 Flashmedium CobuddymediumvsDeepSeek V4 FlashnoneDisponible gratis DeepSeek V4 FlashnoneDisponible gratisvsOwl Alphamedium DeepSeek V4 FlashnoneDisponible gratisvsgpt-oss-120bmediumDisponible gratis