AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs MoonshotAI: Kimi K2.5

Résumé

Kimi K2.5 mène au score moyen avec 5.5 vs 5.0. DeepSeek V3.2 a le coût de benchmark le plus bas avec $0.054 vs $0.127. DeepSeek V3.2 est plus rapide avec 18.25s vs 19.15s, avec des taux de réussite de 37.9% vs 34.9%.

Modèle recommandéKimi K2.5Il obtient le meilleur score de cette comparaison (5.5) et le meilleur équilibre global entre coût et temps de réponse sur les 2 modèles.

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-07-17

Métrique	DeepSeek V3.2 DeepSeek V3.2 none Sortie: 2025-12-01	Kimi K2.5 Kimi K2.5 none Sortie: 2026-01-27

Métrique	DeepSeek V3.2 DeepSeek V3.2 none Sortie: 2025-12-01	Kimi K2.5 Kimi K2.5 none Sortie: 2026-01-27
Score	5.0	5.5
Rang	#165	#148
Fiabilité	10.0	10.0
Cohérence	7.7	8.6
Tests corrects
Taux de réussite par tentative	37.9%	34.9%
Tests instables	6	4
Exécutions totales	66	66
Coût par résultat	0.870	1.898
Coût total	$0.054	$0.127
Prix d'entrée	$0.269 / 1M	$0.571 / 1M
Prix de sortie	$0.400 / 1M	$2.850 / 1M
Total des jetons d'entrée	135,780	89,322
Jetons de sortie	42,097	26,638
Jetons de raisonnement	0	0
Temps de réponse (moy.)	18.25s	19.15s
Temps de réponse (max)	115.89s	102.83s
Temps de réponse (total)	401.60s	287.30s

Génération showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#165 DeepSeek V3.2

none

Coût: $0.002
Temps: 7.0s
Tokens: 1,046 tok

#148 MoonshotAI: Kimi K2.5

none

Coût: $0.015
Temps: 89.1s
Tokens: 5,421 tok

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Catégorie:

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	3.2	8.0	8.3%	1		9.35s	494	1,073	0
Kimi K2.5	3.6	8.4	8.3%	1		6.24s	652	373	0

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	3.1	6.9	11.1%	1		14.54s	7,279	4,528	0
Kimi K2.5	5.5	10.0	33.3%	0		24.56s	7,311	4,708	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	4.8	10.0	0.0%	0		113.53s	109,626	33,819	0
Kimi K2.5	2.8	1.8	33.3%	2		61.00s	65,552	20,729	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	7,890	1,710	0
Kimi K2.5	7.3	5.8	83.3%	1		42.13s	7,180	187	0

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	2.9	7.2	11.1%	1		4.17s	624	21	0
Kimi K2.5	5.3	10.0	33.3%	0		4.38s	753	29	0

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	4.7	1.6	66.7%	1		9.32s	314	43	0
Kimi K2.5	10.0	10.0	100.0%	0		4.00s	483	76	0

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	627	66	0
Kimi K2.5	6.5	10.0	50.0%	0		2.67s	677	60	0

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	7.6	7.2	77.8%	1		6.91s	424	298	0
Kimi K2.5	3.0	10.0	0.0%	0		4.04s	667	236	0

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	8,319	522	0
Kimi K2.5	10.0	10.0	100.0%	0		13.99s	5,835	220	0

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
DeepSeek V3.2	3.0	10.0	0.0%	0		17.23s	183	17	0
Kimi K2.5	3.0	10.0	0.0%	0		3.90s	212	20	0

Comparaison rapide

Changer la paire de comparaison

DeepSeek V3.2nonevsMiniMax M2.7medium KAT-Coder-Air V2.5mediumvsKimi K2.5none KAT-Coder-Air V2.5lowvsKimi K2.5none DeepSeek V3.2nonevsMistral Small 4medium KAT-Coder-Air V2.5highvsKimi K2.5none Kimi K2.5nonevsNemotron 3 SupermediumDisponible gratuitement DeepSeek V3.2nonevsQwen3 Coder Nextmedium CobuddymediumvsDeepSeek V3.2none North Mini CodemediumDisponible gratuitementvsKimi K2.5none Mistral Small 4mediumvsKimi K2.5none DeepSeek V3.2nonevsKAT-Coder-Air V2.5low DeepSeek V3.2nonevsMiniMax M2.5medium