Comparer Graphiques Méthodologie

Langue:

❤️ Made by XCS

AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5.4

Comparer:

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-03-06

Métrique	MoonshotAI: Kimi K2.5 medium Sortie: 2026-01-27	OpenAI: GPT-5.4 none Sortie: 2026-03-05
Score moy.	6.4	4.6
Rang	#29	#44
Tests corrects
Cohérence	7.8	8.9
Coût par résultat	2.082	1.496
Coût total	$0.188	$0.090
Taux de réussite par tentative	73.3%	44.4%
Tests instables	4	2
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Jetons de sortie	34,638	1,635
Jetons de raisonnement	68,234	0
Temps de réponse (moy.)	69.84s	1.46s
Temps de réponse (max)	137.29s	2.89s
Temps de réponse (total)	558.72s	21.86s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score moy. vs Temps de réponse (moy.)

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
MoonshotAI: Kimi K2.5	7.0	7.2	88.9%	1		85.28s	335	6,255
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
MoonshotAI: Kimi K2.5	9.9	10.0	100.0%	0		49.78s	563	7,940
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
MoonshotAI: Kimi K2.5	10.0	4.4	33.3%	2		137.29s	20,753	30,564
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
MoonshotAI: Kimi K2.5	4.0	7.3	44.4%	1		45.40s	6,671	12,403
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Comparaison rapide

Changer la paire de comparaison

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.5mediumvsGPT-5.4none Claude Sonnet 4.6nonevsKimi K2.5medium Gemini 3 Flash PreviewnonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Mercury 2mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewnonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsKimi K2.5medium Gemini 2.5 FlashnonevsKimi K2.5medium DeepSeek V3.2nonevsKimi K2.5medium GPT-5.4nonevsQwen3.5-35B-A3Bmedium