Classement Spécifique au domaine x Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Spécifique au domaine, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

421

Modèle le plus touché

Muse Spark 1.1 3

Raisons d'échec

Mauvaise réponse421 Délai dépassé43 Mise en forme supplémentaire17 Aucune réponse8 Erreur API7 N'a pas suivi les instructions1

Catégories

Spécifique au domaine421 Astuces anti-IA293 Programmation259 Résolution d'énigmes204 Culture générale172 Combiné69 Intelligence générale62 Suivi des instructions61 Analyse et extraction des données41 Appel d'outils3

202/202

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
Tests totaux 3 Tests incorrects 2 Coût total $0.584 Temps de réponse (moy.) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
Tests totaux 3 Tests incorrects 2 Coût total $0.604 Temps de réponse (moy.) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
Tests totaux 3 Tests incorrects 2 Coût total $0.391 Temps de réponse (moy.) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
Tests totaux 3 Tests incorrects 2 Coût total $1.055 Temps de réponse (moy.) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
Tests totaux 3 Tests incorrects 2 Coût total $0.234 Temps de réponse (moy.) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
Tests totaux 3 Tests incorrects 2 Coût total $0.676 Temps de réponse (moy.) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
Tests totaux 3 Tests incorrects 2 Coût total $2.077 Temps de réponse (moy.) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
Tests totaux 3 Tests incorrects 3 Coût total $0.307 Temps de réponse (moy.) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
Tests totaux 3 Tests incorrects 3 Coût total $0.200 Temps de réponse (moy.) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
Tests totaux 3 Tests incorrects 3 Coût total $0.323 Temps de réponse (moy.) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
Tests totaux 3 Tests incorrects 2 Coût total $0.352 Temps de réponse (moy.) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
Tests totaux 3 Tests incorrects 2 Coût total $0.138 Temps de réponse (moy.) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
Tests totaux 3 Tests incorrects 2 Coût total $0.519 Temps de réponse (moy.) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
Tests totaux 3 Tests incorrects 3 Coût total $0.478 Temps de réponse (moy.) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
Tests totaux 3 Tests incorrects 2 Coût total $0.177 Temps de réponse (moy.) 8.05s

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Spécifique au domaine : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé