Classement Intelligence générale x N'a pas suivi les instructions

Voyez quels modèles d'IA ont le plus de chances de rencontrer N'a pas suivi les instructions sur Intelligence générale, pour repérer plus vite les points faibles. Trier par: Tests corrects ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

Grok 4.5 1

Raisons d'échec

N'a pas suivi les instructions78 Mauvaise réponse59 Erreur API12 Délai dépassé4

Catégories

Résolution d'énigmes90 Intelligence générale78 Astuces anti-IA33 Suivi des instructions18 Programmation16 Appel d'outils8 Combiné1 Spécifique au domaine1

78/78

Rang	Modèle	Entreprise	Nombre de N'a pas suivi les instructions	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#12	Grok 4.5 high	X AI	1	4.7	$1.707	0/1	9.82s
Tests totaux 1 Tests incorrects 1 Coût total $1.707 Temps de réponse (moy.) 9.82s
#13	GPT-5.3-Codex medium	OpenAI	1	4.6	$0.920	0/1	4.87s
Tests totaux 1 Tests incorrects 1 Coût total $0.920 Temps de réponse (moy.) 4.87s
#18	GPT-5.4 medium	OpenAI	1	4.7	$1.533	0/1	4.92s
Tests totaux 1 Tests incorrects 1 Coût total $1.533 Temps de réponse (moy.) 4.92s
#21	GPT-5.2 medium	OpenAI	1	3.7	$0.951	0/1	4.32s
Tests totaux 1 Tests incorrects 1 Coût total $0.951 Temps de réponse (moy.) 4.32s
#23	Claude Sonnet 5 medium	Anthropic	1	4.8	$0.922	0/1	4.32s
Tests totaux 1 Tests incorrects 1 Coût total $0.922 Temps de réponse (moy.) 4.32s
#25	Gemini 2.5 Flash medium	Google	1	4.8	$0.643	0/1	4.86s
Tests totaux 1 Tests incorrects 1 Coût total $0.643 Temps de réponse (moy.) 4.86s
#26	GPT-5 Mini medium	OpenAI	1	4.5	$0.237	0/1	13.5s
Tests totaux 1 Tests incorrects 1 Coût total $0.237 Temps de réponse (moy.) 13.5s
#30	GPT-5.2 Chat none	OpenAI	1	4.4	$0.604	0/1	3.20s
Tests totaux 1 Tests incorrects 1 Coût total $0.604 Temps de réponse (moy.) 3.20s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	6.7	$0.234	0/1	18.2s
Tests totaux 1 Tests incorrects 1 Coût total $0.234 Temps de réponse (moy.) 18.2s
#37	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
Tests totaux 1 Tests incorrects 1 Coût total $0.405 Temps de réponse (moy.) 27.1s
#42	GLM 5 medium	Z.ai	1	6.1	$0.307	0/1	14.7s
Tests totaux 1 Tests incorrects 1 Coût total $0.307 Temps de réponse (moy.) 14.7s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.042	0/1	25.2s
Tests totaux 1 Tests incorrects 1 Coût total $0.042 Temps de réponse (moy.) 25.2s
#47	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
Tests totaux 1 Tests incorrects 1 Coût total $0.286 Temps de réponse (moy.) 33.3s
#53	GPT-5.4 Nano medium	OpenAI	1	4.5	$0.138	0/1	4.15s
Tests totaux 1 Tests incorrects 1 Coût total $0.138 Temps de réponse (moy.) 4.15s
#54	GPT-5.3 Chat none	OpenAI	1	4.6	$0.571	0/1	1.99s
Tests totaux 1 Tests incorrects 1 Coût total $0.571 Temps de réponse (moy.) 1.99s

1 2 3 4 5 6

→

Filtrer les modèles

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Intelligence générale : N'a pas suivi les instructions

Filtrer les modèles

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé