Comparar Gráficos Metodologia

Idioma:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Xiaomi: MiMo-V2-Flash

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica	OpenAI: GPT-5.3 Chat none Lançamento: 2026-03-03	Xiaomi: MiMo-V2-Flash medium Lançamento: 2025-12-16
Pontuação média	7.3	7.2
Posição	#19	#21
Testes corretos
Consistência	8.5	9.5
Custo por resultado	3.163	0.316
Custo total	$0.317	$0.035
Taxa de acerto por tentativa	70.8%	72.9%
Testes instáveis	3	1
common.totalRuns	48 (16 x 3)	48 (16 x 3)
Tokens de saída	19,272	11,613
Tokens de raciocínio	0	106,714
Tempo de resposta (médio)	5.96s	25.33s
Tempo de resposta (máx.)	18.33s	96.01s
Tempo de resposta (total)	95.30s	253.33s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
Xiaomi: MiMo-V2-Flash	9.7	10.0	100.0%	0		16.79s	1,328	18,739

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
Xiaomi: MiMo-V2-Flash	9.0	10.0	100.0%	0		75.68s	442	26,859

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
Xiaomi: MiMo-V2-Flash	5.5	10.0	50.0%	0		0ms	153	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
Xiaomi: MiMo-V2-Flash	4.0	7.2	55.6%	1		96.01s	8,374	42,461

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
OpenAI: GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0
Xiaomi: MiMo-V2-Flash	3.0	10.0	0.0%	0		4.20s	87	488

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
Xiaomi: MiMo-V2-Flash	10.0	10.0	100.0%	0		4.28s	75	3,504

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
Xiaomi: MiMo-V2-Flash	7.0	10.0	66.7%	0		3.77s	833	1,948

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
Xiaomi: MiMo-V2-Flash	10.0	10.0	100.0%	0		27.78s	321	12,715

Comparação rápida

Trocar par de comparação

DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponível grátis GPT-5.2 ChatnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium