AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs OpenAI: GPT-5.2 Chat

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	GPT-5.2 Chat GPT-5.2 Chat none Lanzamiento: 2025-12-11

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	GPT-5.2 Chat GPT-5.2 Chat none Lanzamiento: 2025-12-11
Rango	#3	#16
Puntaje prom.	8.5	7.4
Consistencia	8.7	9.1
Costo por resultado	0.870	2.440
Costo total	$0.105	$0.269
Pruebas correctas
Tasa de aciertos por intento	87.5%	75.0%
Pruebas inestables	3	2
Ejecuciones totales	48	48
Tokens de salida	2,815	15,845
Tokens de razonamiento	44,618	0
Tiempo de respuesta (promedio)	29.39s	7.03s
Tiempo de respuesta (máximo)	168.71s	38.52s
Tiempo de respuesta (total)	470.29s	112.51s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.97s	1,651	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.9	10.0	100.0%	0		9.07s	246	1,742
GPT-5.2 Chat	9.9	10.0	100.0%	0		3.05s	980	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	4.0	7.2	55.6%	1		88.74s	15	23,897
GPT-5.2 Chat	4.0	10.0	33.3%	0		17.78s	7,810	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	7.0	3.6	66.7%	1		18.25s	304	1,620
GPT-5.2 Chat	4.0	3.0	33.3%	1		3.20s	335	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
GPT-5.2 Chat	6.0	6.1	83.3%	1		5.46s	1,528	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.3	7.9	88.9%	1		11.03s	461	3,532
GPT-5.2 Chat	7.0	10.0	66.7%	0		4.42s	1,743	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0

Comparación rápida

Cambiar par de comparación

GPT-5.2 ChatnonevsGLM 5medium Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsMiMo-V2-Flashmedium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium Seed-2.0-LitemediumvsGemini 3 Flash Previewlow GPT-5.2 ChatnonevsGrok 4.20 Betamedium Seed-2.0-MinimediumvsGPT-5.2 Chatnone