Classement Intelligence générale x Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Intelligence générale, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

Échecs totaux

Modèle le plus touché

North Mini Code 1

Raisons d'échec

N'a pas suivi les instructions78 Mauvaise réponse62 Erreur API12 Délai dépassé4

Catégories

Spécifique au domaine421 Astuces anti-IA293 Programmation259 Résolution d'énigmes204 Culture générale172 Combiné69 Intelligence générale62 Suivi des instructions61 Analyse et extraction des données41 Appel d'outils3

62/62

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#177	North Mini Code none	Cohere	1	3.9	$0.000	0/1	34.8s
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 34.8s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
Tests totaux 1 Tests incorrects 1 Coût total $0.317 Temps de réponse (moy.) 25.3s
#143	North Mini Code medium	Cohere	1	5.1	$0.000	0/1	25.1s
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 25.1s
#156	DeepSeek V4 Flash none	DeepSeek	1	4.2	$0.042	0/1	23.7s
Tests totaux 1 Tests incorrects 1 Coût total $0.042 Temps de réponse (moy.) 23.7s
#96	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
Tests totaux 1 Tests incorrects 1 Coût total $0.391 Temps de réponse (moy.) 22.5s
#52	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
Tests totaux 1 Tests incorrects 1 Coût total $1.097 Temps de réponse (moy.) 18.4s
#200	GLM 4.7 Flash medium	Z.ai	1	3.6	$0.166	0/1	18.1s
Tests totaux 1 Tests incorrects 1 Coût total $0.166 Temps de réponse (moy.) 18.1s
#102	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
Tests totaux 1 Tests incorrects 1 Coût total $0.469 Temps de réponse (moy.) 17.0s
#64	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
Tests totaux 1 Tests incorrects 1 Coût total $0.478 Temps de réponse (moy.) 16.4s
#185	Ring-2.6-1T none	Inclusionai	1	4.3	$0.026	0/1	15.6s
Tests totaux 1 Tests incorrects 1 Coût total $0.026 Temps de réponse (moy.) 15.6s
#135	Nemotron 3 Ultra none	NVIDIA	1	5.0	$0.095	0/1	13.5s
Tests totaux 1 Tests incorrects 1 Coût total $0.095 Temps de réponse (moy.) 13.5s
#25	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
Tests totaux 1 Tests incorrects 1 Coût total $1.928 Temps de réponse (moy.) 12.8s
#208	Grok Build 0.1 none	X AI	1	4.3	$0.547	0/1	12.5s
Tests totaux 1 Tests incorrects 1 Coût total $0.547 Temps de réponse (moy.) 12.5s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	1	5.0	$0.067	0/1	12.0s
Tests totaux 1 Tests incorrects 1 Coût total $0.067 Temps de réponse (moy.) 12.0s
#212	gpt-oss-120b none	OpenAI	1	4.8	$0.010	0/1	10.8s
Tests totaux 1 Tests incorrects 1 Coût total $0.010 Temps de réponse (moy.) 10.8s

1 2 3 4 5

→

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Intelligence générale : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé