Anthropic: Claude Opus 4.8 vs MoonshotAI: Kimi K2.6

La puntuación media está prácticamente empatada en 7.3 vs 7.2. Claude Opus 4.8 tiene menor coste de benchmark con $1.166 vs $1.222. Claude Opus 4.8 es más rápido con 4.91s vs 109.98s, con tasas de acierto de 63.6% vs 63.6%.

Modelo recomendadoClaude Opus 4.8Tiene la mejor puntuación aquí (7.3) y responde aproximadamente 22.4x más rápido que Kimi K2.6 (medium).

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-17

Métrica	Claude Opus 4.8 Claude Opus 4.8 none Lanzamiento: 2026-05-28	Kimi K2.6 Kimi K2.6 medium Lanzamiento: 2026-04-20

Métrica	Claude Opus 4.8 Claude Opus 4.8 none Lanzamiento: 2026-05-28	Kimi K2.6 Kimi K2.6 medium Lanzamiento: 2026-04-20
Puntuación	7.3	7.2
Rango	#63	#65
Fiabilidad	10.0	9.4
Consistencia	9.2	8.3
Pruebas correctas
Tasa de aciertos por intento	63.6%	63.6%
Pruebas inestables	2	4
Ejecuciones totales	66	66
Costo por resultado	8.969	9.821
Costo total	$1.166	$1.222
Precio de entrada	$5.000 / 1M	$0.950 / 1M
Precio de salida	$25.000 / 1M	$4.000 / 1M
Total de tokens de entrada	149,206	68,902
Tokens de salida	16,797	111,680
Tokens de razonamiento	0	279,860
Tiempo de respuesta (promedio)	4.91s	109.98s
Tiempo de respuesta (máximo)	35.03s	876.20s
Tiempo de respuesta (total)	108.03s	2309.56s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Claude Opus 4.8

none

Coste: $0.053
Tiempo: 22.0s
Tokens: 2,253 tok

#65 MoonshotAI: Kimi K2.6

medium

Coste: $0.013
Tiempo: 103.4s
Tokens: 3,620 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Categoría:

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Kimi K2.6	7.0	8.0	66.7%	1		11.59s	618	7,115	8,934

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Kimi K2.6	5.7	8.6	33.3%	0		214.42s	2,925	9,970	77,189

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
Kimi K2.6	6.9	5.9	66.7%	1		458.58s	50,723	9,468	39,642

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Kimi K2.6	10.0	10.0	100.0%	0		20.38s	7,014	316	11,305

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Kimi K2.6	5.3	7.2	44.4%	1		202.38s	326	47,035	98,262

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Kimi K2.6	10.0	10.0	100.0%	0		17.83s	477	3,981	4,472

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Kimi K2.6	10.0	10.0	100.0%	0		12.53s	669	3,977	5,269

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Kimi K2.6	6.0	7.4	55.6%	1		25.06s	651	13,860	17,599

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Kimi K2.6	10.0	10.0	100.0%	0		8.92s	5,286	248	1,011

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Kimi K2.6	3.0	10.0	0.0%	0		130.27s	213	15,710	16,177

Comparación rápida

Cambiar par de comparación

KAT-Coder-Pro V2.5highvsKimi K2.6medium Claude Opus 4.8nonevsStep 3.7 Flashlow Kimi K2.6mediumvsStep 3.7 Flashlow Claude Opus 4.8nonevsGemini 3.1 Flash Litemedium Claude Opus 4.8nonevsKAT-Coder-Pro V2.5high Claude Opus 4.8nonevsGemini 3.1 Flash Lite Previewmedium Kimi K2.6mediumvsQwen3.7 Plusnone Claude Opus 4.8nonevsQwen3.5 Plus 2026-04-20medium Claude Opus 4.8nonevsKAT-Coder-Pro V2.5low Claude Sonnet 4.6nonevsKimi K2.6medium Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsQwen3.5-122B-A10Bmedium