AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs xAI: Grok 4.3

Resumen

Comparación benchmark de Claude Sonnet 4.6 vs Grok 4.3: Claude Sonnet 4.6 lidera en puntuación media con 7.8 vs 7.7. Grok 4.3 tiene menor coste de benchmark con $0.614 vs $1.418. Claude Sonnet 4.6 es más rápido con 17.06s vs 47.51s, con tasas de acierto de 65.1% vs 71.4%.

Modelo recomendado: Grok 4.3 - Su puntuación se mantiene cerca de la mejor aquí (7.7 vs 7.8) y cuesta aproximadamente 2.3x menos que Claude Sonnet 4.6.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-12

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	Grok 4.3 Grok 4.3 medium Lanzamiento: 2026-05-01

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	Grok 4.3 Grok 4.3 medium Lanzamiento: 2026-05-01
Puntuación	7.8	7.7
Rango	#34	#40
Fiabilidad	10.0	10.0
Consistencia	9.1	8.5
Pruebas correctas
Tasa de aciertos por intento	65.1%	71.4%
Pruebas inestables	2	4
Ejecuciones totales	63	63
Costo por resultado	10.904	4.724
Costo total	$1.418	$0.614
Precio de entrada	$3.000 / 1M	$1.250 / 1M
Precio de salida	$15.000 / 1M	$2.500 / 1M
Total de tokens de entrada	49,112	44,472
Tokens de salida	54,703	1,981
Tokens de razonamiento	29,970	221,382
Tiempo de respuesta (promedio)	17.06s	47.51s
Tiempo de respuesta (máximo)	46.35s	216.69s
Tiempo de respuesta (total)	221.83s	997.68s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#34 Claude Sonnet 4.6

medium

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

#40 xAI: Grok 4.3

medium

Cost: $0.009
Time: 19.0s
Tokens: 3,661 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	789	1,046	1,093
Grok 4.3	10.0	10.0	100.0%	0		8.83s	2,010	88	8,207

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	5.7	6.6	44.4%	1		33.29s	6,995	16,089	3,686
Grok 4.3	5.9	7.7	44.4%	1		41.23s	8,340	1,028	31,226

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	18,351	5,871	3,962
Grok 4.3	10.0	10.0	100.0%	0		63.99s	12,909	234	15,301

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	8,676	649	742
Grok 4.3	10.0	10.0	100.0%	0		18.97s	7,761	180	9,546

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	471	25,790	16,919
Grok 4.3	5.3	7.2	44.4%	1		181.74s	1,764	14	111,300

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	564	256	433
Grok 4.3	5.4	2.5	66.7%	1		24.70s	825	70	5,020

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	792	318	552
Grok 4.3	9.8	10.0	100.0%	0		18.58s	1,362	57	8,713

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		5.31s	816	592	646
Grok 4.3	5.9	7.2	55.6%	1		22.52s	1,689	128	14,468

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	11,454	655	351
Grok 4.3	10.0	10.0	100.0%	0		17.66s	7,263	168	4,615

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	204	3,437	1,586
Grok 4.3	3.0	10.0	0.0%	0		44.47s	549	14	12,986

Comparación rápida

Cambiar par de comparación

Step 3.7 FlashlowvsGrok 4.3medium Claude Sonnet 4.6mediumvsStep 3.7 Flashlow GPT-5.3 ChatnonevsGrok 4.3medium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGrok 4.3medium Claude Sonnet 4.6nonevsGrok 4.3medium Claude Sonnet 4.6mediumvsDeepSeek V4 Flashhigh Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Opus 4.8nonevsGrok 4.3medium DeepSeek V4 FlashhighvsGrok 4.3medium Qwen3.7 PlusnonevsGrok 4.3medium Step 3.7 FlashhighvsGrok 4.3medium