Classement Résolution d'énigmes x N'a pas suivi les instructions

Voyez quels modèles d'IA ont le plus de chances de rencontrer N'a pas suivi les instructions sur Résolution d'énigmes, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

Modèle le plus touché

Gemini 3.1 Flash Lite 2

Raisons d'échec

Mauvaise réponse201 N'a pas suivi les instructions90 Erreur API12 Mise en forme supplémentaire8 Délai dépassé5 Aucune réponse3

Catégories

Résolution d'énigmes90 Intelligence générale78 Astuces anti-IA33 Suivi des instructions18 Programmation16 Appel d'outils8 Combiné1 Spécifique au domaine1

86/86

Rang	Modèle	Entreprise	Nombre de N'a pas suivi les instructions	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
Tests totaux 3 Tests incorrects 3 Coût total $0.096 Temps de réponse (moy.) 2.17s
#168	MiMo-V2.5 none	Xiaomi	1	5.4	$0.025	1/3	2.13s
Tests totaux 3 Tests incorrects 2 Coût total $0.025 Temps de réponse (moy.) 2.13s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
Tests totaux 3 Tests incorrects 3 Coût total $0.021 Temps de réponse (moy.) 621ms
#170	GLM 5 Turbo none	Z.ai	1	5.5	$0.047	1/3	2.65s
Tests totaux 3 Tests incorrects 2 Coût total $0.047 Temps de réponse (moy.) 2.65s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
Tests totaux 3 Tests incorrects 2 Coût total $0.163 Temps de réponse (moy.) 24.9s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
Tests totaux 3 Tests incorrects 3 Coût total $0.010 Temps de réponse (moy.) 1.21s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
Tests totaux 3 Tests incorrects 2 Coût total $0.016 Temps de réponse (moy.) 1.20s
#177	Nemotron 3 Super none	NVIDIA	1	5.5	$0.008	1/3	2.36s
Tests totaux 3 Tests incorrects 2 Coût total $0.008 Temps de réponse (moy.) 2.36s
#178	Ling-2.6-flash none	Inclusionai	1	2.9	$0.002	0/3	6.51s
Tests totaux 3 Tests incorrects 3 Coût total $0.002 Temps de réponse (moy.) 6.51s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
Tests totaux 3 Tests incorrects 1 Coût total $0.026 Temps de réponse (moy.) 31.5s
#180	GPT-5.4 Nano none	OpenAI	1	5.4	$0.041	1/3	1.25s
Tests totaux 3 Tests incorrects 2 Coût total $0.041 Temps de réponse (moy.) 1.25s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.7	$5.599	1/3	5.19s
Tests totaux 3 Tests incorrects 2 Coût total $5.599 Temps de réponse (moy.) 5.19s
#183	Trinity Large Preview none	Arcee AI	1	3.6	$0.008	0/3	1.97s
Tests totaux 3 Tests incorrects 3 Coût total $0.008 Temps de réponse (moy.) 1.97s
#184	Hunter Alpha medium	OpenRouter	1	6.1	$0.000	1/3	5.35s
Tests totaux 3 Tests incorrects 2 Coût total $0.000 Temps de réponse (moy.) 5.35s
#185	Grok 4.1 Fast medium	X AI	1	5.3	$0.069	1/3	7.40s
Tests totaux 3 Tests incorrects 2 Coût total $0.069 Temps de réponse (moy.) 7.40s

←

1 2 3 4 5 6

→

Filtrer les modèles

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Résolution d'énigmes : N'a pas suivi les instructions

Filtrer les modèles

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé