Classement des échecs pour Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

Échecs totaux

1585

Modèle le plus touché

Step 3.5 Flash 4

Catégories

Dans la catégorie Spécifique au domaine421 Dans la catégorie Astuces anti-IA293 Dans la catégorie Programmation259 Dans la catégorie Résolution d'énigmes204 Dans la catégorie Culture générale172 Dans la catégorie Combiné69 Dans la catégorie Intelligence générale62 Dans la catégorie Suivi des instructions61 Dans la catégorie Analyse et extraction des données41 Dans la catégorie Appel d'outils3

215/215

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Tests totaux 19 Tests incorrects 10 Coût total $0.033 Temps de réponse (moy.) 14.7s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
Tests totaux 22 Tests incorrects 14 Coût total $0.122 Temps de réponse (moy.) 13.6s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
Tests totaux 22 Tests incorrects 10 Coût total $0.138 Temps de réponse (moy.) 13.2s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
Tests totaux 21 Tests incorrects 17 Coût total $0.003 Temps de réponse (moy.) 12.9s
#148	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
Tests totaux 22 Tests incorrects 16 Coût total $0.247 Temps de réponse (moy.) 12.9s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Tests totaux 22 Tests incorrects 6 Coût total $2.077 Temps de réponse (moy.) 12.7s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Tests totaux 22 Tests incorrects 15 Coût total $0.106 Temps de réponse (moy.) 12.7s
#26	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Tests totaux 22 Tests incorrects 6 Coût total $0.922 Temps de réponse (moy.) 12.5s
#17	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
Tests totaux 22 Tests incorrects 4 Coût total $1.931 Temps de réponse (moy.) 12.5s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Tests totaux 22 Tests incorrects 17 Coût total $0.067 Temps de réponse (moy.) 12.2s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Tests totaux 22 Tests incorrects 11 Coût total $0.106 Temps de réponse (moy.) 12.1s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Tests totaux 21 Tests incorrects 13 Coût total $0.000 Temps de réponse (moy.) 11.9s
#8	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Tests totaux 22 Tests incorrects 4 Coût total $1.234 Temps de réponse (moy.) 11.7s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
Tests totaux 22 Tests incorrects 12 Coût total $0.096 Temps de réponse (moy.) 11.6s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Tests totaux 22 Tests incorrects 9 Coût total $0.647 Temps de réponse (moy.) 11.5s

Échecs Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)