Classement des échecs pour Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir.

Modèles affichés

Échecs totaux

1558

Modèle le plus touché

Mercury 2 17

Catégories

Dans la catégorie Spécifique au domaine412 Dans la catégorie Astuces anti-IA293 Dans la catégorie Programmation252 Dans la catégorie Résolution d'énigmes201 Dans la catégorie Culture générale168 Dans la catégorie Combiné68 Dans la catégorie Suivi des instructions61 Dans la catégorie Intelligence générale59 Dans la catégorie Analyse et extraction des données41 Dans la catégorie Appel d'outils3

209/209

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Tests totaux 21 Tests incorrects 13 Coût total $0.052 Temps de réponse (moy.) 2.99s
#147	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Tests totaux 21 Tests incorrects 14 Coût total $0.045 Temps de réponse (moy.) 2.27s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Tests totaux 22 Tests incorrects 14 Coût total $0.048 Temps de réponse (moy.) 8.42s
#152	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
Tests totaux 22 Tests incorrects 15 Coût total $0.087 Temps de réponse (moy.) 10.7s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
Tests totaux 22 Tests incorrects 16 Coût total $0.068 Temps de réponse (moy.) 4.12s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Tests totaux 22 Tests incorrects 11 Coût total $0.387 Temps de réponse (moy.) 19.5s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Tests totaux 22 Tests incorrects 11 Coût total $0.482 Temps de réponse (moy.) 20.8s
#71	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Tests totaux 22 Tests incorrects 11 Coût total $0.106 Temps de réponse (moy.) 12.1s
#83	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Tests totaux 22 Tests incorrects 11 Coût total $0.524 Temps de réponse (moy.) 2.16s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Tests totaux 22 Tests incorrects 11 Coût total $0.476 Temps de réponse (moy.) 25.6s
#98	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Tests totaux 22 Tests incorrects 10 Coût total $0.231 Temps de réponse (moy.) 7.82s
#117	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Tests totaux 22 Tests incorrects 12 Coût total $0.249 Temps de réponse (moy.) 5.04s
#146	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Tests totaux 21 Tests incorrects 13 Coût total $0.000 Temps de réponse (moy.) 11.9s
#148	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Tests totaux 21 Tests incorrects 14 Coût total $0.000 Temps de réponse (moy.) 9.88s
#156	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Tests totaux 22 Tests incorrects 14 Coût total $0.015 Temps de réponse (moy.) 7.64s

Échecs Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)