AI BENCHY Compare

OpenAI: GPT-5.4 Nano vs xAI: Grok 4.20 Multi-Agent Beta

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-17

Métrica	GPT-5.4 Nano GPT-5.4 Nano none Lanzamiento: 2026-03-17	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Lanzamiento: 2026-03-12

Métrica	GPT-5.4 Nano GPT-5.4 Nano none Lanzamiento: 2026-03-17	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Lanzamiento: 2026-03-12
Rango	#73	#44
Puntuación	4.3	6.2
Consistencia	7.3	7.2
Costo por resultado	0.404	82.962
Costo total	$0.009	$4.978
Pruebas correctas
Tasa de aciertos por intento	29.4%	54.9%
Pruebas inestables	6	6
Ejecuciones totales	51	51
Tokens de salida	2,185	298,948
Tokens de razonamiento	0	296,529
Tiempo de respuesta (promedio)	1.39s	8.64s
Tiempo de respuesta (máximo)	3.84s	35.28s
Tiempo de respuesta (total)	23.70s	129.64s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Nano	3.5	8.0	16.7%	1		1.18s	800	0
Grok 4.20 Multi-Agent Beta	6.9	5.8	75.0%	2		3.46s	33,706	33,077

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Nano	3.0	10.0	0.0%	0		3.84s	280	0
Grok 4.20 Multi-Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Nano	6.5	10.0	50.0%	0		1.11s	219	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Nano	2.9	4.4	22.2%	2		926ms	52	0
Grok 4.20 Multi-Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Nano	3.8	2.5	33.3%	1		1.31s	180	0
Grok 4.20 Multi-Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Nano	5.0	6.8	33.3%	1		787ms	84	0
Grok 4.20 Multi-Agent Beta	8.3	10.0	50.0%	0		4.63s	25,457	25,322

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Nano	3.7	7.3	22.2%	1		1.29s	348	0
Grok 4.20 Multi-Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Nano	10.0	10.0	100.0%	0		3.40s	222	0
Grok 4.20 Multi-Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

Comparación rápida

Cambiar par de comparación

DeepSeek V3.2nonevsGrok 4.20 Multi-Agent Betamedium GPT-5.4 NanononevsQwen3.5-9Bmedium Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Gemini 2.5 FlashnonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-122B-A10BnonevsGrok 4.20 Multi-Agent Betamedium GPT-5.4 NanononevsQwen3 Coder Nextmedium Grok 4.20 Multi-Agent BetamediumvsGLM 5none Qwen3.5 Plus 2026-02-15nonevsGrok 4.20 Multi-Agent Betamedium