AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs xAI: Grok 4.20 Beta

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Seed-2.0-Mini Seed-2.0-Mini medium Lanzamiento: 2026-02-14	Grok 4.20 Beta Grok 4.20 Beta medium Lanzamiento: 2026-03-12

Métrica	Seed-2.0-Mini Seed-2.0-Mini medium Lanzamiento: 2026-02-14	Grok 4.20 Beta Grok 4.20 Beta medium Lanzamiento: 2026-03-12
Rango	#25	#24
Puntaje prom.	6.9	7.0
Consistencia	9.1	9.0
Costo por resultado	0.280	5.989
Costo total	$0.028	$0.599
Pruebas correctas
Tasa de aciertos por intento	68.8%	70.8%
Pruebas inestables	2	2
Ejecuciones totales	48	48
Tokens de salida	1,965	1,481
Tokens de razonamiento	58,456	86,628
Tiempo de respuesta (promedio)	65.09s	8.89s
Tiempo de respuesta (máximo)	262.83s	24.21s
Tiempo de respuesta (total)	846.14s	142.18s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	7.0	10.0	66.7%	0		98.99s	354	9,352
Grok 4.20 Beta	7.0	7.2	88.9%	1		3.19s	262	6,289

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	9.9	10.0	100.0%	0		24.27s	246	2,743
Grok 4.20 Beta	9.9	10.0	100.0%	0		4.01s	180	5,281

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	0.0%	0		0ms	0	0
Grok 4.20 Beta	4.0	10.0	33.3%	0		21.33s	251	40,255

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	6.0	3.4	33.3%	1		36.65s	213	4,210
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
Grok 4.20 Beta	9.0	10.0	50.0%	0		4.97s	57	7,107

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	7.0	7.2	88.9%	1		25.85s	457	5,060
Grok 4.20 Beta	7.0	7.2	88.9%	1		3.85s	249	6,660

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
Grok 4.20 Beta	10.0	10.0	0.0%	0		12.39s	183	5,384

Comparación rápida

Cambiar par de comparación

Gemini 3.1 Flash Lite PreviewnonevsGrok 4.20 Betamedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3 Flash PreviewnonevsGrok 4.20 Betamedium Claude Sonnet 4.6nonevsGrok 4.20 Betamedium GPT-5.3 ChatnonevsGrok 4.20 Betamedium Seed-2.0-MinimediumvsGemini 3 Flash Previewnone Gemini 3.1 Flash Lite PreviewlowvsGrok 4.20 Betamedium Seed-2.0-MinimediumvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewlow GPT-5.2 ChatnonevsGrok 4.20 Betamedium Seed-2.0-MinimediumvsGPT-5.2 Chatnone