AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.5-27B

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-15

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	Qwen3.5-27B Qwen3.5-27B medium Lanzamiento: 2026-02-24

Métrica	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14	Qwen3.5-27B Qwen3.5-27B medium Lanzamiento: 2026-02-24
Rango	#3	#8
Puntuación	8.8	8.6
Consistencia	8.7	9.1
Costo por resultado	0.870	3.585
Costo total	$0.105	$0.431
Pruebas correctas
Tasa de aciertos por intento	87.5%	81.3%
Pruebas inestables	3	2
Ejecuciones totales	48	48
Tokens de salida	2,815	1,658
Tokens de razonamiento	44,618	200,786
Tiempo de respuesta (promedio)	29.39s	52.13s
Tiempo de respuesta (máximo)	168.71s	163.96s
Tiempo de respuesta (total)	470.29s	834.16s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
Qwen3.5-27B	10.0	10.0	100.0%	0		9.69s	102	8,956

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	483	9,991

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	270	16,150

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	43	52,368

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	70	23,147

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	97	11,638

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532
Qwen3.5-27B	8.2	7.7	77.8%	1		64.61s	245	77,213

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	348	1,323

Comparación rápida

Cambiar par de comparación

Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium Seed-2.0-LitemediumvsGemini 3 Flash Previewlow GPT-5.2 ChatnonevsQwen3.5-27Bmedium Gemini 3 Flash PreviewnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bmedium GPT-5.3 ChatnonevsQwen3.5-27Bmedium Seed-2.0-LitemediumvsGPT-5.2 Chatnone Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-LitemediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsQwen3.5-27Bmedium