Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.2 Chat vs Xiaomi: MiMo-V2-Flash

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	OpenAI: GPT-5.2 Chat none Lanzamiento: 2025-12-11	Xiaomi: MiMo-V2-Flash medium Lanzamiento: 2025-12-16
Rango	#15	#21
Puntaje prom.	7.4	7.2
Consistencia	9.1	9.5
Costo por resultado	2.440	0.316
Costo total	$0.269	$0.035
Pruebas correctas
Tasa de aciertos por intento	75.0%	72.9%
Pruebas inestables	2	1
common.totalRuns	48 (16 x 3)	48 (16 x 3)
Tokens de salida	15,845	11,613
Tokens de razonamiento	0	106,714
Tiempo de respuesta (promedio)	7.03s	25.33s
Tiempo de respuesta (máximo)	38.52s	96.01s
Tiempo de respuesta (total)	112.51s	253.33s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		3.97s	1,651	0
Xiaomi: MiMo-V2-Flash	9.7	10.0	100.0%	0		16.79s	1,328	18,739

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0
Xiaomi: MiMo-V2-Flash	9.0	10.0	100.0%	0		75.68s	442	26,859

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.2 Chat	9.9	10.0	100.0%	0		3.05s	980	0
Xiaomi: MiMo-V2-Flash	5.5	10.0	50.0%	0		0ms	153	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.2 Chat	4.0	10.0	33.3%	0		17.78s	7,810	0
Xiaomi: MiMo-V2-Flash	4.0	7.2	55.6%	1		96.01s	8,374	42,461

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.2 Chat	4.0	3.0	33.3%	1		3.20s	335	0
Xiaomi: MiMo-V2-Flash	3.0	10.0	0.0%	0		4.20s	87	488

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.2 Chat	6.0	6.1	83.3%	1		5.46s	1,528	0
Xiaomi: MiMo-V2-Flash	10.0	10.0	100.0%	0		4.28s	75	3,504

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.2 Chat	7.0	10.0	66.7%	0		4.42s	1,743	0
Xiaomi: MiMo-V2-Flash	7.0	10.0	66.7%	0		3.77s	833	1,948

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0
Xiaomi: MiMo-V2-Flash	10.0	10.0	100.0%	0		27.78s	321	12,715

Comparación rápida

Cambiar par de comparación

GPT-5.2 ChatnonevsGLM 5medium Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Gemini 3 Flash PreviewnonevsMiMo-V2-Flashmedium GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratis GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium