AI BENCHY Compare

Qwen: Qwen3.5-Flash vs Xiaomi: MiMo-V2-Pro

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-20

Métrica	Qwen3.5-Flash Qwen3.5-Flash none Lanzamiento: 2026-02-24	MiMo-V2-Pro MiMo-V2-Pro medium Lanzamiento: 2026-03-18

Métrica	Qwen3.5-Flash Qwen3.5-Flash none Lanzamiento: 2026-02-24	MiMo-V2-Pro MiMo-V2-Pro medium Lanzamiento: 2026-03-18
Puntuación	6.0	8.0
Rango	#46	#20
Consistencia	9.6	8.5
Pruebas correctas
Tasa de aciertos por intento	43.1%	76.5%
Pruebas inestables	1	3
Ejecuciones totales	51	45
Costo por resultado	0.077	1.110
Costo total	$0.006	$0.123
Precio de entrada	$0.065 / 1M	$1.000 / 1M
Precio de salida	$0.260 / 1M	$3.000 / 1M
Tokens de salida	3,777	1,875
Tokens de razonamiento	0	26,959
Tiempo de respuesta (promedio)	3.36s	9.78s
Tiempo de respuesta (máximo)	13.73s	64.71s
Tiempo de respuesta (total)	57.15s	156.45s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	3.5	8.3	8.3%	1		1.32s	690	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		3.06s	223	1,107

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	3.0	10.0	0.0%	0		6.22s	1,794	0
MiMo-V2-Pro	4.7	1.6	66.7%	1		64.71s	380	14,186

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	10.0	10.0	100.0%	0		1.57s	243	0
MiMo-V2-Pro	7.3	5.8	83.3%	1		17.20s	260	7,484

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	7.7	10.0	66.7%	0		905ms	15	0
MiMo-V2-Pro	5.3	10.0	33.3%	0		6.00s	155	1,048

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	10.0	10.0	100.0%	0		803ms	100	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		4.06s	198	424

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	6.3	10.0	50.0%	0		8.81s	63	0
MiMo-V2-Pro	9.9	10.0	100.0%	0		3.36s	83	667

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	3.3	10.0	0.0%	0		5.90s	608	0
MiMo-V2-Pro	7.0	7.2	55.6%	1		4.71s	313	1,179

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		8.19s	263	864

Comparación rápida

Cambiar par de comparación

Gemini 3 Flash PreviewnonevsMiMo-V2-Promedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Promedium gpt-oss-120bmediumDisponible gratisvsQwen3.5-Flashnone MiniMax M2.5mediumDisponible gratisvsQwen3.5-Flashnone Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Promedium GPT-5.2 ChatnonevsMiMo-V2-Promedium Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsQwen3.5-Flashnone Mercury 2mediumvsQwen3.5-Flashnone GPT-5.3 ChatnonevsMiMo-V2-Promedium Mistral Small 4mediumvsQwen3.5-Flashnone Claude Sonnet 4.6nonevsMiMo-V2-Promedium