AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs Google: Gemini 3.1 Flash Lite Preview

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-20

Métrica	Seed-2.0-Mini Seed-2.0-Mini medium Lanzamiento: 2026-02-14	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Lanzamiento: 2026-03-03

Métrica	Seed-2.0-Mini Seed-2.0-Mini medium Lanzamiento: 2026-02-14	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Lanzamiento: 2026-03-03
Puntuación	7.5	8.1
Rango	#39	#22
Consistencia	9.2	10.0
Pruebas correctas
Tasa de aciertos por intento	66.7%	72.2%
Pruebas inestables	2	0
Ejecuciones totales	54	54
Costo por resultado	0.333	0.168
Costo total	$0.037	$0.022
Precio de entrada	$0.100 / 1M	$0.250 / 1M
Precio de salida	$0.400 / 1M	$1.500 / 1M
Tokens de salida	2,419	2,247
Tokens de razonamiento	79,238	8,058
Tiempo de respuesta (promedio)	69.70s	3.22s
Tiempo de respuesta (máximo)	262.83s	11.91s
Tiempo de respuesta (total)	1045.47s	58.00s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	6.6	10.0	50.0%	0		74.75s	360	9,520
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	462	1,638

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		197.31s	448	20,614
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.20s	630	372

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	225	762

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		24.27s	246	2,743
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	291	696

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	3.0	10.0	0.0%	0		0ms	0	0
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	18	1,212

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	5.1	3.4	33.3%	1		36.65s	213	4,210
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	69	384

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	8.2	7.2	88.9%	1		25.85s	457	5,060
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.76s	243	1,248

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993

Comparación rápida

Cambiar par de comparación

Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5 Turbomedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-MinimediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium