Classement Spécifique au domaine x Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Spécifique au domaine, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

421

Modèle le plus touché

Muse Spark 1.1 3

Raisons d'échec

Mauvaise réponse421 Délai dépassé43 Mise en forme supplémentaire17 Aucune réponse8 Erreur API7 N'a pas suivi les instructions1

Catégories

Spécifique au domaine421 Astuces anti-IA293 Programmation259 Résolution d'énigmes204 Culture générale172 Combiné69 Intelligence générale62 Suivi des instructions61 Analyse et extraction des données41 Appel d'outils3

202/202

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
Tests totaux 3 Tests incorrects 2 Coût total $1.166 Temps de réponse (moy.) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
Tests totaux 3 Tests incorrects 2 Coût total $0.454 Temps de réponse (moy.) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
Tests totaux 3 Tests incorrects 2 Coût total $0.779 Temps de réponse (moy.) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
Tests totaux 3 Tests incorrects 3 Coût total $0.078 Temps de réponse (moy.) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
Tests totaux 3 Tests incorrects 3 Coût total $0.600 Temps de réponse (moy.) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
Tests totaux 3 Tests incorrects 2 Coût total $0.096 Temps de réponse (moy.) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
Tests totaux 3 Tests incorrects 3 Coût total $1.207 Temps de réponse (moy.) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
Tests totaux 3 Tests incorrects 2 Coût total $0.746 Temps de réponse (moy.) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
Tests totaux 3 Tests incorrects 3 Coût total $0.391 Temps de réponse (moy.) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
Tests totaux 3 Tests incorrects 2 Coût total $0.457 Temps de réponse (moy.) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
Tests totaux 3 Tests incorrects 3 Coût total $0.089 Temps de réponse (moy.) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
Tests totaux 3 Tests incorrects 2 Coût total $0.128 Temps de réponse (moy.) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
Tests totaux 3 Tests incorrects 2 Coût total $0.018 Temps de réponse (moy.) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
Tests totaux 3 Tests incorrects 2 Coût total $0.646 Temps de réponse (moy.) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
Tests totaux 3 Tests incorrects 2 Coût total $0.621 Temps de réponse (moy.) 1.52s

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Spécifique au domaine : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé