AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Google: Gemini 3.1 Flash Lite Preview

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Lanzamiento: 2026-03-03

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Lanzamiento: 2026-03-03
Rango	#3	#23
Puntaje prom.	8.5	7.1
Consistencia	8.7	9.6
Costo por resultado	0.870	0.144
Costo total	$0.105	$0.015
Pruebas correctas
Tasa de aciertos por intento	87.5%	66.7%
Pruebas inestables	3	1
Ejecuciones totales	48	48
Tokens de salida	2,815	4,715
Tokens de razonamiento	44,618	0
Tiempo de respuesta (promedio)	29.39s	1.33s
Tiempo de respuesta (máximo)	168.71s	3.39s
Tiempo de respuesta (total)	470.29s	21.27s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
Gemini 3.1 Flash Lite Preview	6.0	7.8	55.6%	1		1.16s	1,086	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Gemini 3.1 Flash Lite Preview	10.0	10.0	0.0%	0		3.20s	339	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.9	10.0	100.0%	0		9.07s	246	1,742
Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		1.22s	399	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	4.0	7.2	55.6%	1		88.74s	15	23,897
Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		942ms	568	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	7.0	3.6	66.7%	1		18.25s	304	1,620
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		741ms	69	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.3	7.9	88.9%	1		11.03s	461	3,532
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		972ms	898	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0

Comparación rápida

Cambiar par de comparación

Gemini 3.1 Flash Lite PreviewnonevsGrok 4.20 Betamedium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium