Comparar Gráficos Metodologia

Idioma:

❤️ Made by XCS

AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5.4

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica	MoonshotAI: Kimi K2.5 medium Lançamento: 2026-01-27	OpenAI: GPT-5.4 none Lançamento: 2026-03-05
Pontuação média	6.4	4.6
Posição	#30	#45
Testes corretos
Consistência	7.8	8.9
Custo por resultado	2.082	1.496
Custo total	$0.188	$0.090
Taxa de acerto por tentativa	73.3%	44.4%
Testes instáveis	4	2
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Tokens de saída	34,638	1,635
Tokens de raciocínio	68,234	0
Tempo de resposta (médio)	69.84s	1.46s
Tempo de resposta (máx.)	137.29s	2.89s
Tempo de resposta (total)	558.72s	21.86s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MoonshotAI: Kimi K2.5	7.0	7.2	88.9%	1		85.28s	335	6,255
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MoonshotAI: Kimi K2.5	9.9	10.0	100.0%	0		49.78s	563	7,940
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MoonshotAI: Kimi K2.5	10.0	4.4	33.3%	2		137.29s	20,753	30,564
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MoonshotAI: Kimi K2.5	4.0	7.3	44.4%	1		45.40s	6,671	12,403
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Comparação rápida

Trocar par de comparação

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.5mediumvsGPT-5.4none Claude Sonnet 4.6nonevsKimi K2.5medium Gemini 3 Flash PreviewnonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Mercury 2mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewnonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsKimi K2.5medium Gemini 2.5 FlashnonevsKimi K2.5medium DeepSeek V3.2nonevsKimi K2.5medium GPT-5.4nonevsQwen3.5-35B-A3Bmedium