Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Xiaomi: MiMo-V2-Flash

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	OpenAI: GPT-5.3 Chat none Lanzamiento: 2026-03-03	Xiaomi: MiMo-V2-Flash medium Lanzamiento: 2025-12-16
Puntaje prom.	7.3	7.2
Rango	#19	#21
Pruebas correctas
Consistencia	8.5	9.5
Costo por resultado	3.163	0.316
Costo total	$0.317	$0.035
Tasa de aciertos por intento	70.8%	72.9%
Pruebas inestables	3	1
common.totalRuns	48 (16 x 3)	48 (16 x 3)
Tokens de salida	19,272	11,613
Tokens de razonamiento	0	106,714
Tiempo de respuesta (promedio)	5.96s	25.33s
Tiempo de respuesta (máximo)	18.33s	96.01s
Tiempo de respuesta (total)	95.30s	253.33s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
Xiaomi: MiMo-V2-Flash	9.7	10.0	100.0%	0		16.79s	1,328	18,739

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
Xiaomi: MiMo-V2-Flash	9.0	10.0	100.0%	0		75.68s	442	26,859

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
Xiaomi: MiMo-V2-Flash	5.5	10.0	50.0%	0		0ms	153	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
Xiaomi: MiMo-V2-Flash	4.0	7.2	55.6%	1		96.01s	8,374	42,461

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0
Xiaomi: MiMo-V2-Flash	3.0	10.0	0.0%	0		4.20s	87	488

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
Xiaomi: MiMo-V2-Flash	10.0	10.0	100.0%	0		4.28s	75	3,504

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
Xiaomi: MiMo-V2-Flash	7.0	10.0	66.7%	0		3.77s	833	1,948

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
Xiaomi: MiMo-V2-Flash	10.0	10.0	100.0%	0		27.78s	321	12,715

Comparación rápida

Cambiar par de comparación

DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratis GPT-5.2 ChatnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium