Classement des modèles pour Combiné

Voyez quels modèles d'IA réussissent le mieux sur Combiné, lesquels restent fiables et où les écarts sont les plus marqués.

Modèles affichés

Moyenne de Score Combiné

5.6

Meilleur modèle

Gemini 3.6 Flash 10.0

Raisons d'échec

Avec la raison d'échec Appel d'outil invalide91 Avec la raison d'échec Mauvaise réponse69 Avec la raison d'échec Aucune réponse32 Avec la raison d'échec Erreur API26 Avec la raison d'échec Délai dépassé5 Avec la raison d'échec Mise en forme supplémentaire1 Avec la raison d'échec N'a pas suivi les instructions1

216/216

Rang	Modèle	Entreprise	Score Combiné	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#136	Step 3.5 Flash medium	Stepfun	6.5	6.0	$0.108	1/2	813.7s
Tests totaux 2 Tests incorrects 1 Coût total $0.108 Temps de réponse (moy.) 813.7s
#142	GPT-5.4 Mini none	OpenAI	6.5	5.9	$0.095	1/2	6.22s
Tests totaux 2 Tests incorrects 1 Coût total $0.095 Temps de réponse (moy.) 6.22s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	6.5	5.6	$0.077	1/2	74.5s
Tests totaux 2 Tests incorrects 1 Coût total $0.077 Temps de réponse (moy.) 74.5s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	6.5	5.6	$0.048	1/2	19.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.048 Temps de réponse (moy.) 19.6s
#168	Ling-2.6-1T none	Inclusionai	6.5	5.3	$0.016	1/2	23.8s
Tests totaux 2 Tests incorrects 1 Coût total $0.016 Temps de réponse (moy.) 23.8s
#39	Seed-2.0-Lite medium	Bytedance Seed	6.4	7.9	$0.234	1/2	58.5s
Tests totaux 2 Tests incorrects 1 Coût total $0.234 Temps de réponse (moy.) 58.5s
#49	DeepSeek V4 Flash high	DeepSeek	6.4	7.7	$0.041	1/2	104.1s
Tests totaux 2 Tests incorrects 1 Coût total $0.041 Temps de réponse (moy.) 104.1s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/2	111.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.387 Temps de réponse (moy.) 111.9s
#76	Qwen3.5-122B-A10B medium	Qwen	6.4	7.1	$1.046	1/2	313.5s
Tests totaux 2 Tests incorrects 1 Coût total $1.046 Temps de réponse (moy.) 313.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	6.4	6.9	$0.467	1/2	135.7s
Tests totaux 2 Tests incorrects 1 Coût total $0.467 Temps de réponse (moy.) 135.7s
#109	Qwen3.5-27B none	Qwen	6.4	6.5	$0.090	1/2	39.4s
Tests totaux 2 Tests incorrects 1 Coût total $0.090 Temps de réponse (moy.) 39.4s
#120	Qwen3.5-Flash medium	Qwen	6.4	6.2	$0.139	1/2	266.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.139 Temps de réponse (moy.) 266.6s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.4	6.1	$0.122	1/2	109.7s
Tests totaux 2 Tests incorrects 1 Coût total $0.122 Temps de réponse (moy.) 109.7s
#134	GPT-5 Nano medium	OpenAI	6.4	6.1	$0.114	1/2	146.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.114 Temps de réponse (moy.) 146.9s
#146	Nemotron 3 Super medium	NVIDIA	6.4	5.7	$0.055	1/2	259.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.055 Temps de réponse (moy.) 259.9s

Classement Combiné

Filtrer les modèles

Meilleurs modèles par Score Combiné

Score Combiné vs coût total

Meilleurs modèles par Temps de réponse (moy.)