Classement des échecs pour Aucune réponse

Voyez quels modèles d'IA rencontrent le plus souvent Aucune réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Nombre d'échecs ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

Claude Opus 4.8 1

Catégories

Dans la catégorie Combiné29 Dans la catégorie Programmation18 Dans la catégorie Culture générale13 Dans la catégorie Analyse et extraction des données8 Dans la catégorie Spécifique au domaine8 Dans la catégorie Astuces anti-IA4 Dans la catégorie Résolution d'énigmes3 Dans la catégorie Appel d'outils2 Dans la catégorie Suivi des instructions2

67/67

Rang	Modèle	Entreprise	Nombre de Aucune réponse	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#60	LongCat 2.0 medium	Meituan	1	7.4	$0.478	12/22	136.6s
Tests totaux 22 Tests incorrects 10 Coût total $0.478 Temps de réponse (moy.) 136.6s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
Tests totaux 22 Tests incorrects 9 Coût total $1.166 Temps de réponse (moy.) 4.91s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	12/22	20.7s
Tests totaux 22 Tests incorrects 10 Coût total $0.454 Temps de réponse (moy.) 20.7s
#68	Kimi K2.6 medium	Moonshot AI	1	7.2	$1.036	12/22	110.0s
Tests totaux 22 Tests incorrects 10 Coût total $1.036 Temps de réponse (moy.) 110.0s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
Tests totaux 22 Tests incorrects 9 Coût total $0.779 Temps de réponse (moy.) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
Tests totaux 22 Tests incorrects 9 Coût total $0.535 Temps de réponse (moy.) 46.8s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
Tests totaux 22 Tests incorrects 11 Coût total $0.101 Temps de réponse (moy.) 92.5s
#89	Gemini 3 Flash Preview none	Google	1	6.8	$0.085	13/22	2.95s
Tests totaux 22 Tests incorrects 9 Coût total $0.085 Temps de réponse (moy.) 2.95s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
Tests totaux 22 Tests incorrects 9 Coût total $0.746 Temps de réponse (moy.) 58.1s
#91	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
Tests totaux 22 Tests incorrects 12 Coût total $0.391 Temps de réponse (moy.) 100.3s
#101	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
Tests totaux 22 Tests incorrects 10 Coût total $0.082 Temps de réponse (moy.) 32.2s
#102	Laguna XS 2.1 medium	Poolside	1	6.5	$0.068	9/22	47.9s
Tests totaux 22 Tests incorrects 13 Coût total $0.068 Temps de réponse (moy.) 47.9s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	6.4	$0.052	12/22	1.58s
Tests totaux 22 Tests incorrects 10 Coût total $0.052 Temps de réponse (moy.) 1.58s
#110	Gemma 4 31B medium	Google	1	6.3	$0.163	14/22	75.4s
Tests totaux 22 Tests incorrects 8 Coût total $0.163 Temps de réponse (moy.) 75.4s
#116	Seed-2.0-Lite none	Bytedance Seed	1	6.2	$0.066	8/22	4.40s
Tests totaux 22 Tests incorrects 14 Coût total $0.066 Temps de réponse (moy.) 4.40s

←

1 2 3 4 5

→

Échecs Aucune réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Aucune réponse

Nombre de Aucune réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)