Classement des échecs pour Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Nombre d'échecs ↑.

Modèles affichés

Échecs totaux

1585

Modèle le plus touché

Gemini 3.6 Flash 1

Catégories

Dans la catégorie Spécifique au domaine421 Dans la catégorie Astuces anti-IA293 Dans la catégorie Programmation259 Dans la catégorie Résolution d'énigmes204 Dans la catégorie Culture générale172 Dans la catégorie Combiné69 Dans la catégorie Intelligence générale62 Dans la catégorie Suivi des instructions61 Dans la catégorie Analyse et extraction des données41 Dans la catégorie Appel d'outils3

215/215

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Tests totaux 19 Tests incorrects 10 Coût total $0.069 Temps de réponse (moy.) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Tests totaux 19 Tests incorrects 10 Coût total $0.033 Temps de réponse (moy.) 14.7s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Tests totaux 22 Tests incorrects 7 Coût total $1.533 Temps de réponse (moy.) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Tests totaux 22 Tests incorrects 6 Coût total $1.143 Temps de réponse (moy.) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Tests totaux 22 Tests incorrects 10 Coût total $0.237 Temps de réponse (moy.) 27.6s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Tests totaux 22 Tests incorrects 8 Coût total $0.515 Temps de réponse (moy.) 26.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Tests totaux 22 Tests incorrects 8 Coût total $0.234 Temps de réponse (moy.) 48.5s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Tests totaux 22 Tests incorrects 7 Coût total $0.267 Temps de réponse (moy.) 51.5s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Tests totaux 22 Tests incorrects 7 Coût total $0.405 Temps de réponse (moy.) 43.1s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Tests totaux 22 Tests incorrects 8 Coût total $1.097 Temps de réponse (moy.) 52.1s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
Tests totaux 22 Tests incorrects 10 Coût total $0.740 Temps de réponse (moy.) 84.2s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Tests totaux 22 Tests incorrects 10 Coût total $0.661 Temps de réponse (moy.) 8.12s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Tests totaux 22 Tests incorrects 8 Coût total $1.046 Temps de réponse (moy.) 64.2s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Tests totaux 22 Tests incorrects 9 Coût total $0.779 Temps de réponse (moy.) 47.4s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Tests totaux 22 Tests incorrects 11 Coût total $0.078 Temps de réponse (moy.) 68.6s

Échecs Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)