Classement des modèles pour Combiné

Voyez quels modèles d'IA réussissent le mieux sur Combiné, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Tests corrects ↑.

Modèles affichés

Moyenne de Score Combiné

5.6

Meilleur modèle

Muse Spark 1.1 5.9

Raisons d'échec

Avec la raison d'échec Appel d'outil invalide91 Avec la raison d'échec Mauvaise réponse69 Avec la raison d'échec Aucune réponse32 Avec la raison d'échec Erreur API26 Avec la raison d'échec Délai dépassé5 Avec la raison d'échec Mise en forme supplémentaire1 Avec la raison d'échec N'a pas suivi les instructions1

216/216

Rang	Modèle	Entreprise	Score Combiné	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	6.4	6.9	$0.467	1/2	135.7s
Tests totaux 2 Tests incorrects 1 Coût total $0.467 Temps de réponse (moy.) 135.7s
#86	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.096 Temps de réponse (moy.) 71.6s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
Tests totaux 2 Tests incorrects 1 Coût total $0.524 Temps de réponse (moy.) 8.37s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.9	6.9	$0.187	1/2	125.4s
Tests totaux 2 Tests incorrects 1 Coût total $0.187 Temps de réponse (moy.) 125.4s
#89	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
Tests totaux 2 Tests incorrects 1 Coût total $0.738 Temps de réponse (moy.) 299.2s
#90	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
Tests totaux 2 Tests incorrects 1 Coût total $1.207 Temps de réponse (moy.) 41.2s
#91	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
Tests totaux 2 Tests incorrects 1 Coût total $0.544 Temps de réponse (moy.) 8.90s
#95	Gemini 3.5 Flash-Lite low	Google	6.3	6.7	$0.145	1/2	8.96s
Tests totaux 2 Tests incorrects 1 Coût total $0.145 Temps de réponse (moy.) 8.96s
#100	Gemma 4 26B A4B medium	Google	6.3	6.6	$0.089	1/2	492.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.089 Temps de réponse (moy.) 492.9s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
Tests totaux 2 Tests incorrects 1 Coût total $0.128 Temps de réponse (moy.) 50.2s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.231 Temps de réponse (moy.) 61.6s
#107	MiMo-V2.5 medium	Xiaomi	8.7	6.5	$0.082	1/2	78.0s
Tests totaux 2 Tests incorrects 1 Coût total $0.082 Temps de réponse (moy.) 78.0s
#108	Laguna XS 2.1 medium	Poolside	6.3	6.5	$0.068	1/2	218.1s
Tests totaux 2 Tests incorrects 1 Coût total $0.068 Temps de réponse (moy.) 218.1s
#109	Qwen3.5-27B none	Qwen	6.4	6.5	$0.090	1/2	39.4s
Tests totaux 2 Tests incorrects 1 Coût total $0.090 Temps de réponse (moy.) 39.4s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
Tests totaux 2 Tests incorrects 1 Coût total $0.073 Temps de réponse (moy.) 64.8s

←

1 9 10 11 15

→

Classement Combiné

Filtrer les modèles

Meilleurs modèles par Score Combiné

Score Combiné vs coût total

Meilleurs modèles par Temps de réponse (moy.)