Classement Culture générale x Mauvaise réponse

Échecs par catégorie AI BENCHY

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Culture générale, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

133

Modèle le plus touché

Qwen3.7 Max 1

Raisons d'échec

Mauvaise réponse133 Erreur API13 Aucune réponse8

Catégories

Spécifique au domaine325 Astuces anti-IA250 Programmation201 Résolution d'énigmes154 Culture générale133 Suivi des instructions54 Combiné53 Intelligence générale36 Analyse et extraction des données35 Appel d'outils2

133/133

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
Tests totaux 1 Tests incorrects 1 Coût total $0.026 Temps de réponse (moy.) 133.6s
#145	GPT-5.4 Nano none	OpenAI	1	3.0	$0.011	0/1	773ms
Tests totaux 1 Tests incorrects 1 Coût total $0.011 Temps de réponse (moy.) 773ms
#146	MiniMax M2.5 medium	Minimax	1	3.0	$0.303	0/1	80.8s
Tests totaux 1 Tests incorrects 1 Coût total $0.303 Temps de réponse (moy.) 80.8s
#148	Qwen3 Coder Next medium	Qwen	1	3.0	$0.008	0/1	399ms
Tests totaux 1 Tests incorrects 1 Coût total $0.008 Temps de réponse (moy.) 399ms
#151	Mercury 2 none	Inception	1	3.0	$0.011	0/1	548ms
Tests totaux 1 Tests incorrects 1 Coût total $0.011 Temps de réponse (moy.) 548ms
#157	GLM 4.7 Flash medium	Z.ai	1	3.0	$0.054	0/1	11.1s
Tests totaux 1 Tests incorrects 1 Coût total $0.054 Temps de réponse (moy.) 11.1s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
Tests totaux 1 Tests incorrects 1 Coût total $0.003 Temps de réponse (moy.) 2.71s
#159	MiMo-V2-Flash none	Xiaomi	1	3.0	$0.025	0/1	1.82s
Tests totaux 1 Tests incorrects 1 Coût total $0.025 Temps de réponse (moy.) 1.82s
#160	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	36.1s
Tests totaux 1 Tests incorrects 1 Coût total $0.547 Temps de réponse (moy.) 36.1s
#161	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/1	731ms
Tests totaux 1 Tests incorrects 1 Coût total $0.008 Temps de réponse (moy.) 731ms
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
Tests totaux 1 Tests incorrects 1 Coût total $0.003 Temps de réponse (moy.) 306ms
#164	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	47.3s
Tests totaux 1 Tests incorrects 1 Coût total $0.010 Temps de réponse (moy.) 47.3s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
Tests totaux 1 Tests incorrects 1 Coût total $0.020 Temps de réponse (moy.) 114.1s

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Culture générale : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé