Classement des modèles pour Suivi des instructions

Voyez quels modèles d'IA réussissent le mieux sur Suivi des instructions, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.

Modèles affichés

Moyenne de Score Suivi des instructions

8.5

Meilleur modèle

Grok 4.1 Fast 3.0

Raisons d'échec

Avec la raison d'échec Mauvaise réponse61 Avec la raison d'échec N'a pas suivi les instructions18 Avec la raison d'échec Mise en forme supplémentaire3 Avec la raison d'échec Aucune réponse2 Avec la raison d'échec Délai dépassé1 Avec la raison d'échec Erreur API1

210/210

Rang	Modèle	Entreprise	Score Suivi des instructions	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
Tests totaux 2 Tests incorrects 2 Coût total $0.008 Temps de réponse (moy.) 685ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
Tests totaux 2 Tests incorrects 2 Coût total $0.008 Temps de réponse (moy.) 822ms
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
Tests totaux 2 Tests incorrects 2 Coût total $0.007 Temps de réponse (moy.) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
Tests totaux 2 Tests incorrects 2 Coût total $0.008 Temps de réponse (moy.) 364ms
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
Tests totaux 2 Tests incorrects 2 Coût total $0.163 Temps de réponse (moy.) 12.8s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
Tests totaux 2 Tests incorrects 2 Coût total $0.000 Temps de réponse (moy.) 541ms
#209	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
Tests totaux 1 Tests incorrects 0 Coût total $0.020 Temps de réponse (moy.) 9.30s
#87	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
Tests totaux 2 Tests incorrects 1 Coût total $0.544 Temps de réponse (moy.) 1.15s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
Tests totaux 2 Tests incorrects 1 Coût total $0.122 Temps de réponse (moy.) 1.17s
#161	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
Tests totaux 2 Tests incorrects 1 Coût total $0.061 Temps de réponse (moy.) 1.86s
#194	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
Tests totaux 2 Tests incorrects 1 Coût total $0.166 Temps de réponse (moy.) 2.97s
#152	Qwen3.6 27B none	Qwen	6.2	5.5	$0.087	1/2	1.92s
Tests totaux 2 Tests incorrects 1 Coût total $0.087 Temps de réponse (moy.) 1.92s
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
Tests totaux 2 Tests incorrects 1 Coût total $0.106 Temps de réponse (moy.) 929ms
#103	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
Tests totaux 2 Tests incorrects 1 Coût total $0.090 Temps de réponse (moy.) 1.03s
#124	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
Tests totaux 2 Tests incorrects 1 Coût total $0.062 Temps de réponse (moy.) 1.10s

Classement Suivi des instructions

Filtrer les modèles

Meilleurs modèles par Score Suivi des instructions

Score Suivi des instructions vs coût total

Meilleurs modèles par Temps de réponse (moy.)