AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs OpenAI: GPT-5.5

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-24

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	GPT-5.5 GPT-5.5 medium Lanzamiento: 2026-04-24

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	GPT-5.5 GPT-5.5 medium Lanzamiento: 2026-04-24
Puntuación	8.6	9.0
Rango	#7	#5
Fiabilidad	N/D	N/D
Consistencia	8.8	9.2
Pruebas correctas
Tasa de aciertos por intento	83.3%	87.0%
Pruebas inestables	3	2
Ejecuciones totales	54	54
Costo por resultado	0.926	19.226
Costo total	$0.121	$2.884
Precio de entrada	$0.250 / 1M	$5.000 / 1M
Precio de salida	$2.000 / 1M	$30.000 / 1M
Tokens de salida	3,257	1,920
Tokens de razonamiento	52,042	89,632
Tiempo de respuesta (promedio)	30.37s	32.75s
Tiempo de respuesta (máximo)	168.71s	332.10s
Tiempo de respuesta (total)	546.72s	589.59s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	8.3	10.0	75.0%	0		17.99s	996	7,142
GPT-5.5	10.0	10.0	100.0%	0		4.66s	250	1,335

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		74.49s	436	7,319
GPT-5.5	10.0	10.0	100.0%	0		9.09s	318	1,391

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
GPT-5.5	10.0	10.0	100.0%	0		19.29s	312	2,841

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742
GPT-5.5	10.0	10.0	100.0%	0		4.18s	234	593

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897
GPT-5.5	5.3	7.2	44.4%	1		164.14s	67	79,625

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620
GPT-5.5	10.0	10.0	100.0%	0		4.16s	138	223

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
GPT-5.5	10.0	10.0	100.0%	0		3.36s	93	538

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532
GPT-5.5	8.6	7.9	77.8%	1		6.78s	250	2,254

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
GPT-5.5	10.0	10.0	100.0%	0		10.57s	258	832

Comparación rápida

Cambiar par de comparación

Seed-2.0-LitemediumvsHY3 PreviewhighDisponible gratis Gemini 3 Flash PreviewlowvsGPT-5.5medium Claude Opus 4.7nonevsGPT-5.5medium Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Seed-2.0-LitemediumvsDeepSeek V4 Prohigh Seed-2.0-LitemediumvsHY3 PreviewlowDisponible gratis Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow GPT-5.5mediumvsHY3 PreviewhighDisponible gratis Claude Opus 4.7nonevsSeed-2.0-Litemedium Seed-2.0-LitemediumvsGPT-5.2 Chatnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewnone