AI BENCHY Compare

Google: Gemini 2.5 Flash vs MoonshotAI: Kimi K2.5

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-01

Métrica	Gemini 2.5 Flash Gemini 2.5 Flash none Lanzamiento: 2025-06-17	Kimi K2.5 Kimi K2.5 medium Lanzamiento: 2026-01-27

Métrica	Gemini 2.5 Flash Gemini 2.5 Flash none Lanzamiento: 2025-06-17	Kimi K2.5 Kimi K2.5 medium Lanzamiento: 2026-01-27
Puntuación	6.4	6.7
Rango	#95	#85
Fiabilidad	10.0	10.0
Consistencia	9.6	6.8
Pruebas correctas
Tasa de aciertos por intento	48.3%	66.7%
Pruebas inestables	1	8
Ejecuciones totales	60	60
Costo por resultado	0.159	3.486
Costo total	$0.015	$0.272
Precio de entrada	$0.300 / 1M	$0.400 / 1M
Precio de salida	$2.500 / 1M	$1.900 / 1M
Tokens de salida	1,764	48,374
Tokens de razonamiento	0	128,473
Tiempo de respuesta (promedio)	889ms	89.02s
Tiempo de respuesta (máximo)	4.39s	281.00s
Tiempo de respuesta (total)	17.79s	1157.32s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	3.0	10.0	0.0%	0		582ms	102	0
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	6.8	10.0	50.0%	0		810ms	477	0
Kimi K2.5	4.1	1.9	50.0%	2		215.89s	5,700	45,419

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	3.0	10.0	0.0%	0		4.39s	366	0
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		652ms	279	0
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	5.9	7.2	55.6%	1		495ms	12	0
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	5.0	10.0	0.0%	0		615ms	78	0
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		590ms	72	0
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	7.7	10.0	66.7%	0		604ms	132	0
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	8,426	12,692

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		1.91s	234	0
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	3.0	10.0	0.0%	0		1.15s	12	0
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	12	7,644

Comparación rápida

Cambiar par de comparación

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium DeepSeek V4 ProhighvsGemini 2.5 Flashnone Gemma 4 31BnoneDisponible gratisvsKimi K2.5medium Gemini 3.1 Flash LitenonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.5none Gemini 2.5 FlashnonevsMercury 2medium Gemini 2.5 FlashnonevsQwen3.6 27Bmedium Gemini 2.5 FlashnonevsGPT-5 Nanomedium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none DeepSeek V4 ProhighvsKimi K2.5medium Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none