Classement Résolution d'énigmes x Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Résolution d'énigmes, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

204

Modèle le plus touché

Qwen3.5-Flash 3

Raisons d'échec

Mauvaise réponse204 N'a pas suivi les instructions90 Erreur API12 Mise en forme supplémentaire8 Délai dépassé5 Aucune réponse3

Catégories

Spécifique au domaine421 Astuces anti-IA293 Programmation259 Résolution d'énigmes204 Culture générale172 Combiné69 Intelligence générale62 Suivi des instructions61 Analyse et extraction des données41 Appel d'outils3

145/145

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#206	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	1.86s
Tests totaux 3 Tests incorrects 2 Coût total $0.025 Temps de réponse (moy.) 1.86s
#207	Granite 4.1 8B none	IBM Granite	2	3.2	$0.007	0/3	608ms
Tests totaux 3 Tests incorrects 3 Coût total $0.007 Temps de réponse (moy.) 608ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2	2.9	$0.000	0/3	1.40s
Tests totaux 3 Tests incorrects 3 Coût total $0.000 Temps de réponse (moy.) 1.40s
#216	LFM2-24B-A2B none	Liquid	2	3.8	$0.001	0/3	1.78s
Tests totaux 3 Tests incorrects 3 Coût total $0.001 Temps de réponse (moy.) 1.78s
#5	GPT-5.6 Sol low	OpenAI	1	8.2	$0.971	2/3	3.44s
Tests totaux 3 Tests incorrects 1 Coût total $0.971 Temps de réponse (moy.) 3.44s
#7	GPT-5.6 Sol medium	OpenAI	1	8.2	$1.316	2/3	2.98s
Tests totaux 3 Tests incorrects 1 Coût total $1.316 Temps de réponse (moy.) 2.98s
#12	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	2.38s
Tests totaux 3 Tests incorrects 1 Coût total $0.642 Temps de réponse (moy.) 2.38s
#26	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	2.98s
Tests totaux 3 Tests incorrects 1 Coût total $0.922 Temps de réponse (moy.) 2.98s
#28	Gemini 2.5 Flash medium	Google	1	7.7	$0.643	2/3	3.18s
Tests totaux 3 Tests incorrects 1 Coût total $0.643 Temps de réponse (moy.) 3.18s
#29	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
Tests totaux 3 Tests incorrects 2 Coût total $0.237 Temps de réponse (moy.) 15.2s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.2	$0.584	2/3	1.85s
Tests totaux 3 Tests incorrects 1 Coût total $0.584 Temps de réponse (moy.) 1.85s
#32	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
Tests totaux 3 Tests incorrects 2 Coût total $1.006 Temps de réponse (moy.) 10.7s
#34	GPT-5.2 Chat none	OpenAI	1	7.7	$0.604	2/3	4.10s
Tests totaux 3 Tests incorrects 1 Coût total $0.604 Temps de réponse (moy.) 4.10s
#35	GLM 5.2 high	Z.ai	1	6.0	$0.817	1/3	33.7s
Tests totaux 3 Tests incorrects 2 Coût total $0.817 Temps de réponse (moy.) 33.7s
#38	GPT-5.6 Terra high	OpenAI	1	7.7	$1.055	2/3	5.45s
Tests totaux 3 Tests incorrects 1 Coût total $1.055 Temps de réponse (moy.) 5.45s

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Résolution d'énigmes : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé