Classement Programmation x N'a pas suivi les instructions

Échecs par catégorie AI BENCHY

Voyez quels modèles d'IA ont le plus de chances de rencontrer N'a pas suivi les instructions sur Programmation, pour repérer plus vite les points faibles. Trier par: Nombre d'échecs ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

Gemini 3.5 Flash 1

Raisons d'échec

Mauvaise réponse230 Erreur API43 Délai dépassé25 Aucune réponse18 N'a pas suivi les instructions16 Mise en forme supplémentaire12

Catégories

Résolution d'énigmes83 Intelligence générale74 Astuces anti-IA31 Programmation16 Suivi des instructions15 Appel d'outils6 Combiné1 Spécifique au domaine1

16/16

Rang	Modèle	Entreprise	Nombre de N'a pas suivi les instructions	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#11	Gemini 3.5 Flash medium	Google	1	7.9	$0.582	2/3	12.6s
Tests totaux 3 Tests incorrects 1 Coût total $0.582 Temps de réponse (moy.) 12.6s
#49	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Tests totaux 3 Tests incorrects 2 Coût total $2.053 Temps de réponse (moy.) 30.1s
#70	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
Tests totaux 3 Tests incorrects 2 Coût total $0.539 Temps de réponse (moy.) 3.29s
#71	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
Tests totaux 3 Tests incorrects 2 Coût total $0.034 Temps de réponse (moy.) 13.4s
#74	GLM 5.2 none	Z.ai	1	3.7	$0.042	0/3	7.55s
Tests totaux 3 Tests incorrects 3 Coût total $0.042 Temps de réponse (moy.) 7.55s
#85	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
Tests totaux 3 Tests incorrects 2 Coût total $0.108 Temps de réponse (moy.) 2.75s
#128	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
Tests totaux 3 Tests incorrects 2 Coût total $0.078 Temps de réponse (moy.) 82.6s
#133	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
Tests totaux 1 Tests incorrects 1 Coût total $0.069 Temps de réponse (moy.) 23.6s
#137	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
Tests totaux 3 Tests incorrects 3 Coût total $0.017 Temps de réponse (moy.) 1.41s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
Tests totaux 3 Tests incorrects 3 Coût total $0.032 Temps de réponse (moy.) 1.69s
#146	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.016	0/3	14.5s
Tests totaux 3 Tests incorrects 3 Coût total $0.016 Temps de réponse (moy.) 14.5s
#158	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
Tests totaux 1 Tests incorrects 1 Coût total $0.033 Temps de réponse (moy.) 35.6s
#160	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
Tests totaux 3 Tests incorrects 3 Coût total $0.000 Temps de réponse (moy.) 79.2s
#179	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
Tests totaux 3 Tests incorrects 3 Coût total $0.025 Temps de réponse (moy.) 2.64s
#183	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Tests totaux 3 Tests incorrects 3 Coût total $0.003 Temps de réponse (moy.) 775ms

Filtrer les modèles

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Programmation : N'a pas suivi les instructions

Filtrer les modèles

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé