AI BENCHY Compare

OpenAI: GPT-4o-mini vs Xiaomi: MiMo-V2.5-Pro

Resumen

Comparación benchmark de GPT-4o-mini vs MiMo-V2.5-Pro: MiMo-V2.5-Pro lidera en puntuación media con 5.5 vs 5.0. GPT-4o-mini tiene menor coste de benchmark con $0.006 vs $0.017. GPT-4o-mini es más rápido con 1.77s vs 1.78s, con tasas de acierto de 23.8% vs 39.7%.

Modelo recomendado: MiMo-V2.5-Pro - Tiene la puntuación más alta en esta comparación (5.5) y el mejor equilibrio general entre coste y tiempo de respuesta en los 2 modelos.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-02

Métrica	GPT-4o-mini GPT-4o-mini none Lanzamiento: 2024-07-18	MiMo-V2.5-Pro MiMo-V2.5-Pro none Lanzamiento: 2026-04-22

Métrica	GPT-4o-mini GPT-4o-mini none Lanzamiento: 2024-07-18	MiMo-V2.5-Pro MiMo-V2.5-Pro none Lanzamiento: 2026-04-22
Puntuación	5.0	5.5
Rango	#144	#123
Fiabilidad	10.0	10.0
Consistencia	9.9	8.6
Pruebas correctas
Tasa de aciertos por intento	23.8%	39.7%
Pruebas inestables	0	4
Ejecuciones totales	63	63
Costo por resultado	0.119	0.648
Costo total	$0.006	$0.017
Precio de entrada	$0.150 / 1M	$0.435 / 1M
Precio de salida	$0.600 / 1M	$0.870 / 1M
Total de tokens de entrada	31,518	30,724
Tokens de salida	1,982	3,043
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	1.77s	1.78s
Tiempo de respuesta (máximo)	7.58s	8.32s
Tiempo de respuesta (total)	24.80s	37.42s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#144 GPT-4o-mini

none

Coste: $0.001
Tiempo: 6.6s
Tokens: 742 tok

#123 MiMo-V2.5-Pro

none

Coste: $0.004
Tiempo: 46.4s
Tokens: 4,025 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	618	186	0
MiMo-V2.5-Pro	3.3	8.1	8.3%	1		2.67s	645	994	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	3.2	9.6	0.0%	0		1.63s	7,314	367	0
MiMo-V2.5-Pro	4.3	7.8	22.2%	1		1.41s	6,559	485	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	8,298	568	0
MiMo-V2.5-Pro	3.0	10.0	0.0%	0		3.54s	4,695	596	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	7,161	183	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		1.32s	7,758	249	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	732	15	0
MiMo-V2.5-Pro	5.3	10.0	33.3%	0		877ms	753	27	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	480	66	0
MiMo-V2.5-Pro	4.0	10.0	0.0%	0		2.58s	498	87	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	6.3	10.0	50.0%	0		1.11s	666	69	0
MiMo-V2.5-Pro	6.4	10.0	50.0%	0		1.03s	684	66	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	3.5	10.0	0.0%	0		1.21s	651	308	0
MiMo-V2.5-Pro	6.7	4.7	77.8%	2		1.30s	678	267	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	5,400	205	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		3.30s	8,238	258	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-4o-mini	3.0	10.0	0.0%	0		794ms	198	15	0
MiMo-V2.5-Pro	3.0	10.0	0.0%	0		1.89s	216	14	0

Comparación rápida

Cambiar par de comparación

CobuddymediumvsGPT-4o-mininone Mistral Small 4mediumvsGPT-4o-mininone MiniMax M2.5mediumvsGPT-4o-mininone MiniMax M2.7mediumvsGPT-4o-mininone GPT-4o-mininonevsQwen3 Coder Nextmedium MiniMax M2.7mediumvsMiMo-V2.5-Pronone North Mini CodemediumDisponible gratisvsMiMo-V2.5-Pronone Mistral Small 4mediumvsMiMo-V2.5-Pronone CobuddymediumvsMiMo-V2.5-Pronone Gemini 3.1 Flash LiteminimalvsMiMo-V2.5-Pronone GPT-4o-mininonevsGLM 4.7 Flashmedium MiniMax M2.5mediumvsMiMo-V2.5-Pronone