Classement Résolution d'énigmes x Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Résolution d'énigmes, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

204

Modèle le plus touché

Qwen3.5-Flash 3

Raisons d'échec

Mauvaise réponse204 N'a pas suivi les instructions90 Erreur API12 Mise en forme supplémentaire8 Délai dépassé5 Aucune réponse3

Catégories

Spécifique au domaine421 Astuces anti-IA293 Programmation259 Résolution d'énigmes204 Culture générale172 Combiné69 Intelligence générale62 Suivi des instructions61 Analyse et extraction des données41 Appel d'outils3

145/145

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#77	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
Tests totaux 3 Tests incorrects 2 Coût total $0.779 Temps de réponse (moy.) 22.5s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
Tests totaux 3 Tests incorrects 1 Coût total $0.535 Temps de réponse (moy.) 31.6s
#79	Grok 4.20 medium	X AI	1	7.7	$0.777	2/3	6.22s
Tests totaux 3 Tests incorrects 1 Coût total $0.777 Temps de réponse (moy.) 6.22s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Tests totaux 3 Tests incorrects 2 Coût total $0.078 Temps de réponse (moy.) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Tests totaux 3 Tests incorrects 2 Coût total $0.600 Temps de réponse (moy.) 43.2s
#82	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
Tests totaux 3 Tests incorrects 2 Coût total $0.093 Temps de réponse (moy.) 949ms
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
Tests totaux 3 Tests incorrects 1 Coût total $0.101 Temps de réponse (moy.) 31.8s
#87	GPT-5.6 Sol none	OpenAI	1	7.7	$0.524	2/3	1.49s
Tests totaux 3 Tests incorrects 1 Coût total $0.524 Temps de réponse (moy.) 1.49s
#88	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
Tests totaux 3 Tests incorrects 2 Coût total $0.187 Temps de réponse (moy.) 5.31s
#91	GPT-5.5 none	OpenAI	1	7.7	$0.544	2/3	1.29s
Tests totaux 3 Tests incorrects 1 Coût total $0.544 Temps de réponse (moy.) 1.29s
#93	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	1.05s
Tests totaux 3 Tests incorrects 1 Coût total $0.085 Temps de réponse (moy.) 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	1	8.0	$0.746	2/3	5.95s
Tests totaux 3 Tests incorrects 1 Coût total $0.746 Temps de réponse (moy.) 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	1	7.8	$0.145	2/3	1.22s
Tests totaux 3 Tests incorrects 1 Coût total $0.145 Temps de réponse (moy.) 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	1	8.2	$0.476	2/3	3.03s
Tests totaux 3 Tests incorrects 1 Coût total $0.476 Temps de réponse (moy.) 3.03s
#98	GLM 5V Turbo medium	Z.ai	1	7.7	$0.457	2/3	10.2s
Tests totaux 3 Tests incorrects 1 Coût total $0.457 Temps de réponse (moy.) 10.2s

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Résolution d'énigmes : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé