AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs OpenAI: GPT-5.3-Codex

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	GPT-5.3-Codex GPT-5.3-Codex medium Lanzamiento: 2026-02-05

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	GPT-5.3-Codex GPT-5.3-Codex medium Lanzamiento: 2026-02-05
Rango	#3	#4
Puntaje prom.	8.5	8.4
Consistencia	8.7	9.1
Costo por resultado	0.870	4.485
Costo total	$0.105	$0.539
Pruebas correctas
Tasa de aciertos por intento	87.5%	83.3%
Pruebas inestables	3	2
Ejecuciones totales	48	48
Tokens de salida	2,815	1,764
Tokens de razonamiento	44,618	33,348
Tiempo de respuesta (promedio)	29.39s	16.59s
Tiempo de respuesta (máximo)	168.71s	100.93s
Tiempo de respuesta (total)	470.29s	265.39s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
GPT-5.3-Codex	10.0	10.0	100.0%	0		4.69s	216	1,421

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.9	10.0	100.0%	0		9.07s	246	1,742
GPT-5.3-Codex	9.9	10.0	100.0%	0		3.07s	234	728

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	4.0	7.2	55.6%	1		88.74s	15	23,897
GPT-5.3-Codex	4.0	7.2	55.6%	1		64.31s	64	25,308

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	7.0	3.6	66.7%	1		18.25s	304	1,620
GPT-5.3-Codex	4.0	10.0	0.0%	0		4.87s	187	331

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.3	7.9	88.9%	1		11.03s	461	3,532
GPT-5.3-Codex	9.3	7.9	88.9%	1		5.12s	352	1,644

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492

Comparación rápida

Cambiar par de comparación

Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Seed-2.0-LitemediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3-Codexmedium Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-LitemediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewnonevsGPT-5.3-Codexmedium Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6nonevsGPT-5.3-Codexmedium Claude Sonnet 4.6nonevsSeed-2.0-Litemedium