Classement Intelligence générale x Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Intelligence générale, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

Modèle le plus touché

Grok 4.5 1

Raisons d'échec

N'a pas suivi les instructions78 Mauvaise réponse59 Erreur API12 Délai dépassé4

Catégories

Spécifique au domaine412 Astuces anti-IA293 Programmation252 Résolution d'énigmes201 Culture générale168 Combiné68 Suivi des instructions61 Intelligence générale59 Analyse et extraction des données41 Appel d'outils3

59/59

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#20	Grok 4.5 low	X AI	1	6.1	$0.935	0/1	4.88s
Tests totaux 1 Tests incorrects 1 Coût total $0.935 Temps de réponse (moy.) 4.88s
#22	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
Tests totaux 1 Tests incorrects 1 Coût total $1.928 Temps de réponse (moy.) 12.8s
#29	Step 3.7 Flash medium	Stepfun	1	4.0	$0.515	0/1	6.85s
Tests totaux 1 Tests incorrects 1 Coût total $0.515 Temps de réponse (moy.) 6.85s
#34	GPT-5.6 Terra high	OpenAI	1	5.1	$1.055	0/1	3.03s
Tests totaux 1 Tests incorrects 1 Coût total $1.055 Temps de réponse (moy.) 3.03s
#39	GPT-5.6 Terra medium	OpenAI	1	5.5	$0.676	0/1	2.37s
Tests totaux 1 Tests incorrects 1 Coût total $0.676 Temps de réponse (moy.) 2.37s
#44	GPT-5.6 Luna high	OpenAI	1	5.0	$1.017	0/1	3.65s
Tests totaux 1 Tests incorrects 1 Coût total $1.017 Temps de réponse (moy.) 3.65s
#48	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
Tests totaux 1 Tests incorrects 1 Coût total $1.097 Temps de réponse (moy.) 18.4s
#49	GLM 5 Turbo medium	Z.ai	1	6.1	$0.323	0/1	10.1s
Tests totaux 1 Tests incorrects 1 Coût total $0.323 Temps de réponse (moy.) 10.1s
#50	GPT-5.6 Luna medium	OpenAI	1	5.1	$0.352	0/1	4.34s
Tests totaux 1 Tests incorrects 1 Coût total $0.352 Temps de réponse (moy.) 4.34s
#55	GPT-5.6 Terra low	OpenAI	1	4.8	$0.519	0/1	3.52s
Tests totaux 1 Tests incorrects 1 Coût total $0.519 Temps de réponse (moy.) 3.52s
#60	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
Tests totaux 1 Tests incorrects 1 Coût total $0.478 Temps de réponse (moy.) 16.4s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	4.1	$0.387	0/1	2.32s
Tests totaux 1 Tests incorrects 1 Coût total $0.387 Temps de réponse (moy.) 2.32s
#67	Step 3.7 Flash low	Stepfun	1	3.4	$0.454	0/1	7.00s
Tests totaux 1 Tests incorrects 1 Coût total $0.454 Temps de réponse (moy.) 7.00s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	1	5.1	$0.482	0/1	3.27s
Tests totaux 1 Tests incorrects 1 Coût total $0.482 Temps de réponse (moy.) 3.27s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
Tests totaux 1 Tests incorrects 1 Coût total $0.317 Temps de réponse (moy.) 25.3s

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Intelligence générale : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé