Comparar Gráficos

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs MoonshotAI: Kimi K2.5

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-03

Métrica	Google: Gemini 3.1 Flash Lite Preview none Lanzamiento: 2026-03-03	MoonshotAI: Kimi K2.5 medium Lanzamiento: 2026-01-27
Rango	#10	#25
Puntaje prom.	7.70	6.29
Consistencia	9.54	7.69
Costo por resultado	0.116	2.335
Costo total	$0.011	$0.187
Pruebas correctas
Tasa de aciertos por intento	69.1%	73.8%
Pruebas inestables	1	4
Tokens de salida	4,307	30,504
Tokens de razonamiento	0	58,467

Mejores modelos por puntuación

Puntuación vs costo total

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	6.00	7.85	55.6%	1		1,086	0
MoonshotAI: Kimi K2.5	7.00	7.21	88.9%	1		335	6,255

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		399	0
MoonshotAI: Kimi K2.5	10.00	10.00	100.0%	0		1,181	6,049

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		568	0
MoonshotAI: Kimi K2.5	1.00	4.41	33.3%	2		20,696	30,894

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	9.00	10.00	50.0%	0		574	0
MoonshotAI: Kimi K2.5	9.50	10.00	100.0%	0		3,777	4,967

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		898	0
MoonshotAI: Kimi K2.5	5.00	7.61	55.6%	1		4,273	9,490

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		782	0
MoonshotAI: Kimi K2.5	10.00	10.00	100.0%	0		242	812

Comparación rápida

Cambiar par de comparación

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium Gemini 3 Flash PreviewnonevsKimi K2.5medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium