AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Google: Gemini 3 Flash Preview

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	Gemini 3 Flash Preview Gemini 3 Flash Preview low Lanzamiento: 2025-12-17

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	Gemini 3 Flash Preview Gemini 3 Flash Preview low Lanzamiento: 2025-12-17
Rango	#3	#6
Puntaje prom.	8.5	8.2
Consistencia	8.7	9.5
Costo por resultado	0.870	0.607
Costo total	$0.105	$0.079
Pruebas correctas
Tasa de aciertos por intento	87.5%	83.3%
Pruebas inestables	3	1
Ejecuciones totales	48	48
Tokens de salida	2,815	1,586
Tokens de razonamiento	44,618	19,950
Tiempo de respuesta (promedio)	29.39s	6.11s
Tiempo de respuesta (máximo)	168.71s	14.72s
Tiempo de respuesta (total)	470.29s	97.74s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.50s	275	2,476

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Gemini 3 Flash Preview	10.0	10.0	0.0%	0		3.27s	326	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.9	10.0	100.0%	0		9.07s	246	1,742
Gemini 3 Flash Preview	9.9	10.0	100.0%	0		9.40s	279	3,656

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	4.0	7.2	55.6%	1		88.74s	15	23,897
Gemini 3 Flash Preview	4.0	7.2	44.4%	1		8.05s	12	6,410

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	7.0	3.6	66.7%	1		18.25s	304	1,620
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.68s	120	981

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Gemini 3 Flash Preview	9.5	10.0	100.0%	0		7.02s	71	2,752

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.3	7.9	88.9%	1		11.03s	461	3,532
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		6.11s	269	3,260

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		4.99s	234	415

Comparación rápida

Cambiar par de comparación

Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium Gemini 3 Flash PreviewlowvsQwen3.5 Plus 2026-02-15medium Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 3 Flash PreviewlowvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsStep 3.5 FlashmediumDisponible gratis Gemini 3 Flash PreviewlowvsGLM 5medium Gemini 3 Flash PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsMiMo-V2-Flashmedium