AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-4o-mini

Resumo

Comparação benchmark Kimi K2.5 vs GPT-4o-mini: Kimi K2.5 lidera na pontuação média com 5.5 vs 5.0. GPT-4o-mini tem menor custo de benchmark com $0.006 vs $0.027. GPT-4o-mini é mais rápido com 1.77s vs 13.18s, com taxas de acerto de 34.9% vs 23.8%.

Modelo recomendado: Kimi K2.5 - Tem a pontuação mais forte nesta comparação (5.5) e o melhor equilíbrio geral entre custo e tempo de resposta entre os 2 modelos.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-02

Métrica	Kimi K2.5 Kimi K2.5 none Lançamento: 2026-01-27	GPT-4o-mini GPT-4o-mini none Lançamento: 2024-07-18

Métrica	Kimi K2.5 Kimi K2.5 none Lançamento: 2026-01-27	GPT-4o-mini GPT-4o-mini none Lançamento: 2024-07-18
Pontuação	5.5	5.0
Posição	#122	#144
Confiabilidade	10.0	10.0
Consistência	8.9	9.9
Testes corretos
Taxa de acerto por tentativa	34.9%	23.8%
Testes instáveis	3	0
Execuções totais	63	63
Custo por resultado	0.442	0.119
Custo total	$0.027	$0.006
Preço de entrada	$0.375 / 1M	$0.150 / 1M
Preço de saída	$2.025 / 1M	$0.600 / 1M
Total de tokens de entrada	36,034	31,518
Tokens de saída	6,657	1,982
Tokens de raciocínio	0	0
Tempo de resposta (médio)	13.18s	1.77s
Tempo de resposta (máx.)	42.13s	7.58s
Tempo de resposta (total)	184.47s	24.80s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#122 MoonshotAI: Kimi K2.5

none

Custo: $0.015
Tempo: 89.1s
Tokens: 5,421 tok

#144 GPT-4o-mini

none

Custo: $0.001
Tempo: 6.6s
Tokens: 742 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	3.6	8.4	8.3%	1		6.24s	652	373	0
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	618	186	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	5.5	10.0	33.3%	0		24.56s	7,311	4,708	0
GPT-4o-mini	3.2	9.6	0.0%	0		1.63s	7,314	367	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	2.8	2.1	33.3%	1		19.16s	12,264	748	0
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	8,298	568	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	7.3	5.8	83.3%	1		42.13s	7,180	187	0
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	7,161	183	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	5.3	10.0	33.3%	0		4.38s	753	29	0
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	732	15	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	10.0	10.0	100.0%	0		4.00s	483	76	0
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	480	66	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	6.5	10.0	50.0%	0		2.67s	677	60	0
GPT-4o-mini	6.3	10.0	50.0%	0		1.11s	666	69	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	3.0	10.0	0.0%	0		4.04s	667	236	0
GPT-4o-mini	3.5	10.0	0.0%	0		1.21s	651	308	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	10.0	10.0	100.0%	0		13.99s	5,835	220	0
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	5,400	205	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.5	3.0	10.0	0.0%	0		3.90s	212	20	0
GPT-4o-mini	3.0	10.0	0.0%	0		794ms	198	15	0

Comparação rápida

Trocar par de comparação

CobuddymediumvsGPT-4o-mininone Mistral Small 4mediumvsGPT-4o-mininone MiniMax M2.5mediumvsGPT-4o-mininone MiniMax M2.7mediumvsGPT-4o-mininone GPT-4o-mininonevsQwen3 Coder Nextmedium MiniMax M2.7mediumvsKimi K2.5none North Mini CodemediumDisponível grátisvsKimi K2.5none Mistral Small 4mediumvsKimi K2.5none CobuddymediumvsKimi K2.5none Gemini 3.1 Flash LiteminimalvsKimi K2.5none GPT-4o-mininonevsGLM 4.7 Flashmedium MiniMax M2.5mediumvsKimi K2.5none