Classement des modèles pour Combiné

Voyez quels modèles d'IA réussissent le mieux sur Combiné, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

Moyenne de Score Combiné

5.6

Meilleur modèle

Qwen3.6 35B A3B 3.0

Raisons d'échec

Avec la raison d'échec Appel d'outil invalide91 Avec la raison d'échec Mauvaise réponse69 Avec la raison d'échec Aucune réponse32 Avec la raison d'échec Erreur API26 Avec la raison d'échec Délai dépassé5 Avec la raison d'échec Mise en forme supplémentaire1 Avec la raison d'échec N'a pas suivi les instructions1

216/216

Rang	Modèle	Entreprise	Score Combiné	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#33	Step 3.7 Flash medium	Stepfun	7.3	8.0	$0.515	1/2	80.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.515 Temps de réponse (moy.) 80.9s
#80	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.078 Temps de réponse (moy.) 79.9s
#50	DeepSeek V4 Pro high	DeepSeek	10.0	7.7	$0.200	2/2	79.0s
Tests totaux 2 Tests incorrects 0 Coût total $0.200 Temps de réponse (moy.) 79.0s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
Tests totaux 1 Tests incorrects 0 Coût total $0.015 Temps de réponse (moy.) 78.7s
#107	MiMo-V2.5 medium	Xiaomi	8.7	6.5	$0.082	1/2	78.0s
Tests totaux 2 Tests incorrects 1 Coût total $0.082 Temps de réponse (moy.) 78.0s
#144	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
Tests totaux 2 Tests incorrects 2 Coût total $0.184 Temps de réponse (moy.) 77.8s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
Tests totaux 1 Tests incorrects 0 Coût total $0.043 Temps de réponse (moy.) 75.7s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	6.5	5.6	$0.077	1/2	74.5s
Tests totaux 2 Tests incorrects 1 Coût total $0.077 Temps de réponse (moy.) 74.5s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
Tests totaux 2 Tests incorrects 2 Coût total $0.067 Temps de réponse (moy.) 73.0s
#178	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	72.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.163 Temps de réponse (moy.) 72.1s
#86	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.096 Temps de réponse (moy.) 71.6s
#30	Muse Spark 1.1 high	Meta	5.9	8.1	$1.694	0/2	70.3s
Tests totaux 2 Tests incorrects 2 Coût total $1.694 Temps de réponse (moy.) 70.3s
#71	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	66.2s
Tests totaux 2 Tests incorrects 1 Coût total $0.454 Temps de réponse (moy.) 66.2s
#56	Kimi K2.7 Code medium	Moonshot AI	7.3	7.5	$0.740	1/2	66.0s
Tests totaux 2 Tests incorrects 1 Coût total $0.740 Temps de réponse (moy.) 66.0s
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	2/2	65.1s
Tests totaux 2 Tests incorrects 0 Coût total $1.097 Temps de réponse (moy.) 65.1s

Classement Combiné

Filtrer les modèles

Meilleurs modèles par Score Combiné

Score Combiné vs coût total

Meilleurs modèles par Temps de réponse (moy.)