Classement des échecs pour Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir.

Modèles affichés

Échecs totaux

1558

Modèle le plus touché

Mercury 2 17

Catégories

Dans la catégorie Spécifique au domaine412 Dans la catégorie Astuces anti-IA293 Dans la catégorie Programmation252 Dans la catégorie Résolution d'énigmes201 Dans la catégorie Culture générale168 Dans la catégorie Combiné68 Dans la catégorie Suivi des instructions61 Dans la catégorie Intelligence générale59 Dans la catégorie Analyse et extraction des données41 Dans la catégorie Appel d'outils3

209/209

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Tests totaux 22 Tests incorrects 15 Coût total $0.062 Temps de réponse (moy.) 3.74s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
Tests totaux 22 Tests incorrects 14 Coût total $0.122 Temps de réponse (moy.) 13.6s
#127	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Tests totaux 22 Tests incorrects 15 Coût total $0.106 Temps de réponse (moy.) 12.7s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Tests totaux 22 Tests incorrects 14 Coût total $0.095 Temps de réponse (moy.) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Tests totaux 21 Tests incorrects 12 Coût total $0.041 Temps de réponse (moy.) 4.03s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
Tests totaux 22 Tests incorrects 17 Coût total $0.044 Temps de réponse (moy.) 36.8s
#162	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
Tests totaux 22 Tests incorrects 18 Coût total $0.016 Temps de réponse (moy.) 8.58s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Tests totaux 22 Tests incorrects 17 Coût total $0.096 Temps de réponse (moy.) 10.8s
#171	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Tests totaux 22 Tests incorrects 18 Coût total $0.000 Temps de réponse (moy.) 29.9s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Tests totaux 21 Tests incorrects 17 Coût total $0.008 Temps de réponse (moy.) 2.98s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Tests totaux 22 Tests incorrects 11 Coût total $0.544 Temps de réponse (moy.) 2.36s
#102	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Tests totaux 22 Tests incorrects 13 Coût total $0.068 Temps de réponse (moy.) 47.9s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Tests totaux 22 Tests incorrects 13 Coût total $0.046 Temps de réponse (moy.) 1.75s
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Tests totaux 22 Tests incorrects 14 Coût total $0.349 Temps de réponse (moy.) 1.65s
#138	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Tests totaux 22 Tests incorrects 15 Coût total $0.184 Temps de réponse (moy.) 19.6s

Échecs Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)