Classement Programmation x Mauvaise réponse

Échecs par catégorie AI BENCHY

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Programmation, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

230

Modèle le plus touché

Qwen3.6 Flash 3

Raisons d'échec

Mauvaise réponse230 Erreur API43 Délai dépassé25 Aucune réponse18 N'a pas suivi les instructions16 Mise en forme supplémentaire12

Catégories

Spécifique au domaine368 Astuces anti-IA270 Programmation230 Résolution d'énigmes173 Culture générale150 Combiné58 Suivi des instructions56 Intelligence générale49 Analyse et extraction des données36 Appel d'outils3

134/134

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
Tests totaux 3 Tests incorrects 1 Coût total $0.349 Temps de réponse (moy.) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
Tests totaux 3 Tests incorrects 1 Coût total $1.054 Temps de réponse (moy.) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
Tests totaux 3 Tests incorrects 1 Coût total $3.679 Temps de réponse (moy.) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Tests totaux 3 Tests incorrects 1 Coût total $0.960 Temps de réponse (moy.) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
Tests totaux 3 Tests incorrects 1 Coût total $0.679 Temps de réponse (moy.) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.179	2/3	41.0s
Tests totaux 3 Tests incorrects 1 Coût total $0.179 Temps de réponse (moy.) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
Tests totaux 3 Tests incorrects 1 Coût total $1.210 Temps de réponse (moy.) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Tests totaux 3 Tests incorrects 1 Coût total $0.175 Temps de réponse (moy.) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
Tests totaux 3 Tests incorrects 1 Coût total $0.393 Temps de réponse (moy.) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
Tests totaux 3 Tests incorrects 1 Coût total $0.376 Temps de réponse (moy.) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Tests totaux 3 Tests incorrects 1 Coût total $1.696 Temps de réponse (moy.) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
Tests totaux 3 Tests incorrects 1 Coût total $0.027 Temps de réponse (moy.) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
Tests totaux 3 Tests incorrects 1 Coût total $0.379 Temps de réponse (moy.) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
Tests totaux 3 Tests incorrects 1 Coût total $0.852 Temps de réponse (moy.) 9.14s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
Tests totaux 3 Tests incorrects 2 Coût total $0.177 Temps de réponse (moy.) 108.6s

←

1 5 6 7 9

→

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Programmation : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé