AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs ByteDance Seed: Seed-2.0-Lite

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-15

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	Seed-2.0-Lite Seed-2.0-Lite medium Lanzamiento: 2026-02-14
Rango	#12	#3
Puntuación	8.3	8.8
Consistencia	9.5	8.7
Costo por resultado	8.525	0.870
Costo total	$1.023	$0.105
Pruebas correctas
Tasa de aciertos por intento	77.1%	87.5%
Pruebas inestables	1	3
Ejecuciones totales	48	48
Tokens de salida	35,159	2,815
Tokens de razonamiento	24,687	44,618
Tiempo de respuesta (promedio)	11.23s	29.39s
Tiempo de respuesta (máximo)	46.35s	168.71s
Tiempo de respuesta (total)	89.84s	470.29s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	7.7	10.0	66.7%	0		4.95s	1,031	1,093
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011

Comparación rápida

Cambiar par de comparación

Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-LitemediumvsGPT-5.2 Chatnone Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-LitemediumvsGPT-5.3 Chatnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewnone