Classement Résolution d'énigmes x Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Résolution d'énigmes, pour repérer plus vite les points faibles.

Modèles affichés

Échecs totaux

204

Modèle le plus touché

Qwen3.5-Flash 3

Raisons d'échec

Mauvaise réponse204 N'a pas suivi les instructions90 Erreur API12 Mise en forme supplémentaire8 Délai dépassé5 Aucune réponse3

Catégories

Spécifique au domaine421 Astuces anti-IA293 Programmation259 Résolution d'énigmes204 Culture générale172 Combiné69 Intelligence générale62 Suivi des instructions61 Analyse et extraction des données41 Appel d'outils3

145/145

Rang	Modèle	Entreprise	Nombre de Mauvaise réponse	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#42	GLM 5.2 medium	Z.ai	1	8.2	$0.187	2/3	13.1s
Tests totaux 3 Tests incorrects 1 Coût total $0.187 Temps de réponse (moy.) 13.1s
#43	GPT-5.6 Terra medium	OpenAI	1	8.4	$0.676	2/3	3.78s
Tests totaux 3 Tests incorrects 1 Coût total $0.676 Temps de réponse (moy.) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	2/3	4.71s
Tests totaux 3 Tests incorrects 1 Coût total $3.059 Temps de réponse (moy.) 4.71s
#48	GPT-5.6 Luna high	OpenAI	1	7.6	$1.017	2/3	14.6s
Tests totaux 3 Tests incorrects 1 Coût total $1.017 Temps de réponse (moy.) 14.6s
#50	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
Tests totaux 3 Tests incorrects 2 Coût total $0.200 Temps de réponse (moy.) 56.8s
#51	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
Tests totaux 3 Tests incorrects 1 Coût total $0.286 Temps de réponse (moy.) 49.9s
#52	Grok Build 0.1 medium	X AI	1	7.7	$1.097	2/3	18.3s
Tests totaux 3 Tests incorrects 1 Coût total $1.097 Temps de réponse (moy.) 18.3s
#54	GPT-5.6 Luna medium	OpenAI	1	7.8	$0.352	2/3	4.04s
Tests totaux 3 Tests incorrects 1 Coût total $0.352 Temps de réponse (moy.) 4.04s
#56	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.740	1/3	41.0s
Tests totaux 3 Tests incorrects 2 Coût total $0.740 Temps de réponse (moy.) 41.0s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.7	$0.115	2/3	5.30s
Tests totaux 3 Tests incorrects 1 Coût total $0.115 Temps de réponse (moy.) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.6	$0.117	2/3	1.95s
Tests totaux 3 Tests incorrects 1 Coût total $0.117 Temps de réponse (moy.) 1.95s
#72	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
Tests totaux 3 Tests incorrects 2 Coût total $1.036 Temps de réponse (moy.) 25.1s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	1	8.2	$0.482	2/3	3.38s
Tests totaux 3 Tests incorrects 1 Coût total $0.482 Temps de réponse (moy.) 3.38s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	8.2	$0.317	2/3	17.7s
Tests totaux 3 Tests incorrects 1 Coût total $0.317 Temps de réponse (moy.) 17.7s
#75	Qwen3.7 Plus none	Qwen	1	7.7	$0.106	2/3	1.71s
Tests totaux 3 Tests incorrects 1 Coût total $0.106 Temps de réponse (moy.) 1.71s

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Résolution d'énigmes : Mauvaise réponse

Filtrer les modèles

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé