AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Google: Gemini 3 Flash Preview

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	Gemini 3 Flash Preview Gemini 3 Flash Preview none Lanzamiento: 2025-12-17

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	Gemini 3 Flash Preview Gemini 3 Flash Preview none Lanzamiento: 2025-12-17
Rango	#3	#21
Puntaje prom.	8.5	7.2
Consistencia	8.7	9.0
Costo por resultado	0.870	0.169
Costo total	$0.105	$0.019
Pruebas correctas
Tasa de aciertos por intento	87.5%	75.0%
Pruebas inestables	3	2
Ejecuciones totales	48	48
Tokens de salida	2,815	1,411
Tokens de razonamiento	44,618	0
Tiempo de respuesta (promedio)	29.39s	1.75s
Tiempo de respuesta (máximo)	168.71s	3.56s
Tiempo de respuesta (total)	470.29s	15.71s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
Gemini 3 Flash Preview	7.0	10.0	66.7%	0		1.59s	208	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Gemini 3 Flash Preview	10.0	1.6	66.7%	1		3.56s	350	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.9	10.0	100.0%	0		9.07s	246	1,742
Gemini 3 Flash Preview	9.9	10.0	100.0%	0		1.41s	279	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	4.0	7.2	55.6%	1		88.74s	15	23,897
Gemini 3 Flash Preview	7.0	10.0	66.7%	0		963ms	18	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	7.0	3.6	66.7%	1		18.25s	304	1,620
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		1.13s	104	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Gemini 3 Flash Preview	5.5	5.8	66.7%	1		1.58s	74	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.3	7.9	88.9%	1		11.03s	461	3,532
Gemini 3 Flash Preview	7.0	10.0	66.7%	0		1.06s	144	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.35s	234	0

Comparación rápida

Cambiar par de comparación

Gemini 3 Flash PreviewnonevsMiMo-V2-Flashmedium DeepSeek V3.2mediumvsGemini 3 Flash Previewnone Gemini 3 Flash PreviewnonevsGrok 4.20 Betamedium Gemini 3 Flash PreviewnonevsGLM 5medium Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponible gratis Seed-2.0-MinimediumvsGemini 3 Flash Previewnone Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Gemini 3 Flash PreviewnonevsQwen3.5-122B-A10Bmedium Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Gemini 3 Flash PreviewnonevsGPT-5.2medium