Classement des échecs pour Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir.

Modèles affichés

Échecs totaux

1523

Modèle le plus touché

Mercury 2 17

Catégories

Dans la catégorie Spécifique au domaine404 Dans la catégorie Astuces anti-IA290 Dans la catégorie Programmation249 Dans la catégorie Résolution d'énigmes193 Dans la catégorie Culture générale165 Dans la catégorie Combiné67 Dans la catégorie Suivi des instructions57 Dans la catégorie Intelligence générale55 Dans la catégorie Analyse et extraction des données40 Dans la catégorie Appel d'outils3

205/205

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Tests totaux 22 Tests incorrects 18 Coût total $0.030 Temps de réponse (moy.) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Tests totaux 22 Tests incorrects 17 Coût total $0.022 Temps de réponse (moy.) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
Tests totaux 22 Tests incorrects 16 Coût total $0.127 Temps de réponse (moy.) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Tests totaux 22 Tests incorrects 17 Coût total $0.010 Temps de réponse (moy.) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
Tests totaux 22 Tests incorrects 17 Coût total $0.017 Temps de réponse (moy.) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Tests totaux 22 Tests incorrects 18 Coût total $0.041 Temps de réponse (moy.) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Tests totaux 22 Tests incorrects 15 Coût total $0.397 Temps de réponse (moy.) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
Tests totaux 22 Tests incorrects 16 Coût total $0.142 Temps de réponse (moy.) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Tests totaux 22 Tests incorrects 17 Coût total $0.008 Temps de réponse (moy.) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Tests totaux 22 Tests incorrects 17 Coût total $0.025 Temps de réponse (moy.) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Tests totaux 22 Tests incorrects 17 Coût total $0.025 Temps de réponse (moy.) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Tests totaux 22 Tests incorrects 18 Coût total $0.021 Temps de réponse (moy.) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Tests totaux 22 Tests incorrects 14 Coût total $0.066 Temps de réponse (moy.) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Tests totaux 22 Tests incorrects 14 Coût total $0.073 Temps de réponse (moy.) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Tests totaux 22 Tests incorrects 16 Coût total $0.095 Temps de réponse (moy.) 1.53s

Échecs Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)