Classement Résolution d'énigmes x Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Résolution d'énigmes, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

204

Modèle le plus touché

Qwen3.5-Flash 3

Raisons d'échec

Mauvaise réponse204 N'a pas suivi les instructions90 Erreur API12 Mise en forme supplémentaire8 Délai dépassé5 Aucune réponse3

Catégories

Spécifique au domaine421 Astuces anti-IA293 Programmation259 Résolution d'énigmes204 Culture générale172 Combiné69 Intelligence générale62 Suivi des instructions61 Analyse et extraction des données41 Appel d'outils3

145/145

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#101	GLM 5.2 none	Z.ai	1	7.7	$0.128	2/3	3.31s
Tests totaux 3 Tests incorrects 1 Coût total $0.128 Temps de réponse (moy.) 3.31s
#104	Gemini 3.5 Flash-Lite medium	Google	1	8.4	$0.369	2/3	1.70s
Tests totaux 3 Tests incorrects 1 Coût total $0.369 Temps de réponse (moy.) 1.70s
#105	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
Tests totaux 3 Tests incorrects 1 Coût total $0.779 Temps de réponse (moy.) 61.1s
#109	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
Tests totaux 3 Tests incorrects 2 Coût total $0.090 Temps de réponse (moy.) 1.38s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	1	7.7	$0.073	2/3	2.71s
Tests totaux 3 Tests incorrects 1 Coût total $0.073 Temps de réponse (moy.) 2.71s
#114	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
Tests totaux 3 Tests incorrects 2 Coût total $0.103 Temps de réponse (moy.) 20.7s
#118	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
Tests totaux 3 Tests incorrects 2 Coût total $0.548 Temps de réponse (moy.) 3.22s
#119	MiMo-V2-Flash medium	Xiaomi	1	7.7	$0.043	2/3	3.87s
Tests totaux 3 Tests incorrects 1 Coût total $0.043 Temps de réponse (moy.) 3.87s
#121	Gemma 4 31B none	Google	1	6.5	$0.021	1/3	4.23s
Tests totaux 3 Tests incorrects 2 Coût total $0.021 Temps de réponse (moy.) 4.23s
#123	GPT-5.6 Luna low	OpenAI	1	7.6	$0.249	2/3	3.59s
Tests totaux 3 Tests incorrects 1 Coût total $0.249 Temps de réponse (moy.) 3.59s
#124	Gemini 2.5 Flash none	Google	1	7.7	$0.017	2/3	604ms
Tests totaux 3 Tests incorrects 1 Coût total $0.017 Temps de réponse (moy.) 604ms
#127	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
Tests totaux 3 Tests incorrects 2 Coût total $0.019 Temps de réponse (moy.) 21.7s
#128	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
Tests totaux 3 Tests incorrects 2 Coût total $0.046 Temps de réponse (moy.) 720ms
#129	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
Tests totaux 3 Tests incorrects 2 Coût total $0.187 Temps de réponse (moy.) 2.97s
#134	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
Tests totaux 3 Tests incorrects 2 Coût total $0.114 Temps de réponse (moy.) 20.6s

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Résolution d'énigmes : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé