Classement Programmation x Mauvaise réponse

Échecs par catégorie AI BENCHY

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Programmation, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

230

Modèle le plus touché

Qwen3.6 Flash 3

Raisons d'échec

Mauvaise réponse230 Erreur API43 Délai dépassé23 Aucune réponse18 N'a pas suivi les instructions16 Mise en forme supplémentaire12

Catégories

Spécifique au domaine367 Astuces anti-IA270 Programmation230 Résolution d'énigmes172 Culture générale149 Combiné58 Suivi des instructions56 Intelligence générale49 Analyse et extraction des données36 Appel d'outils3

134/134

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#57	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
Tests totaux 3 Tests incorrects 2 Coût total $0.433 Temps de réponse (moy.) 10.5s
#58	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
Tests totaux 3 Tests incorrects 2 Coût total $0.107 Temps de réponse (moy.) 19.1s
#64	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
Tests totaux 3 Tests incorrects 2 Coût total $0.111 Temps de réponse (moy.) 6.00s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Tests totaux 3 Tests incorrects 2 Coût total $0.609 Temps de réponse (moy.) 109.9s
#68	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
Tests totaux 3 Tests incorrects 2 Coût total $0.457 Temps de réponse (moy.) 63.4s
#72	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
Tests totaux 3 Tests incorrects 2 Coût total $0.023 Temps de réponse (moy.) 2.15s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
Tests totaux 3 Tests incorrects 3 Coût total $0.030 Temps de réponse (moy.) 7.55s
#77	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
Tests totaux 3 Tests incorrects 2 Coût total $0.036 Temps de réponse (moy.) 70.3s
#80	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
Tests totaux 3 Tests incorrects 2 Coût total $0.025 Temps de réponse (moy.) 1.80s
#81	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
Tests totaux 3 Tests incorrects 2 Coût total $0.054 Temps de réponse (moy.) 1.35s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
Tests totaux 3 Tests incorrects 3 Coût total $0.080 Temps de réponse (moy.) 58.9s
#89	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
Tests totaux 3 Tests incorrects 2 Coût total $0.061 Temps de réponse (moy.) 97.1s
#91	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
Tests totaux 3 Tests incorrects 2 Coût total $0.013 Temps de réponse (moy.) 38.4s
#92	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
Tests totaux 3 Tests incorrects 2 Coût total $0.081 Temps de réponse (moy.) 41.6s
#95	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
Tests totaux 3 Tests incorrects 2 Coût total $0.026 Temps de réponse (moy.) 1.39s

←

1 2 3 4 9

→

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Programmation : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé