Classement des modèles pour Résolution d'énigmes

Voyez quels modèles d'IA réussissent le mieux sur Résolution d'énigmes, lesquels restent fiables et où les écarts sont les plus marqués.

Modèles affichés

Moyenne de Score Résolution d'énigmes

6.7

Meilleur modèle

Gemini 3 Flash Preview 10.0

Raisons d'échec

Avec la raison d'échec Mauvaise réponse193 Avec la raison d'échec N'a pas suivi les instructions88 Avec la raison d'échec Erreur API12 Avec la raison d'échec Mise en forme supplémentaire7 Avec la raison d'échec Délai dépassé5 Avec la raison d'échec Aucune réponse3

206/206

Rang	Modèle	Entreprise	Score Résolution d'énigmes	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	4.05s
Tests totaux 3 Tests incorrects 0 Coût total $0.742 Temps de réponse (moy.) 4.05s
#2	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	3/3	3.23s
Tests totaux 3 Tests incorrects 0 Coût total $1.976 Temps de réponse (moy.) 3.23s
#5	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	3/3	4.10s
Tests totaux 3 Tests incorrects 0 Coût total $1.234 Temps de réponse (moy.) 4.10s
#6	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	3/3	4.74s
Tests totaux 3 Tests incorrects 0 Coût total $1.253 Temps de réponse (moy.) 4.74s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	3/3	6.90s
Tests totaux 3 Tests incorrects 0 Coût total $1.361 Temps de réponse (moy.) 6.90s
#8	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	3/3	8.84s
Tests totaux 3 Tests incorrects 0 Coût total $1.116 Temps de réponse (moy.) 8.84s
#10	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	3/3	6.76s
Tests totaux 3 Tests incorrects 0 Coût total $4.137 Temps de réponse (moy.) 6.76s
#11	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	3/3	2.35s
Tests totaux 3 Tests incorrects 0 Coût total $0.433 Temps de réponse (moy.) 2.35s
#12	Grok 4.5 high	X AI	10.0	8.9	$1.707	3/3	7.88s
Tests totaux 3 Tests incorrects 0 Coût total $1.707 Temps de réponse (moy.) 7.88s
#14	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	3/3	3.95s
Tests totaux 3 Tests incorrects 0 Coût total $1.931 Temps de réponse (moy.) 3.95s
#15	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	3/3	2.43s
Tests totaux 3 Tests incorrects 0 Coût total $1.477 Temps de réponse (moy.) 2.43s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	3/3	24.3s
Tests totaux 3 Tests incorrects 0 Coût total $1.143 Temps de réponse (moy.) 24.3s
#20	Grok 4.5 low	X AI	10.0	8.4	$0.935	3/3	3.20s
Tests totaux 3 Tests incorrects 0 Coût total $0.935 Temps de réponse (moy.) 3.20s
#22	Grok 4.5 medium	X AI	10.0	8.3	$1.928	3/3	7.75s
Tests totaux 3 Tests incorrects 0 Coût total $1.928 Temps de réponse (moy.) 7.75s
#32	Inkling medium	Thinkingmachines	10.0	8.0	$0.391	3/3	5.18s
Tests totaux 3 Tests incorrects 0 Coût total $0.391 Temps de réponse (moy.) 5.18s

Classement Résolution d'énigmes

Filtrer les modèles

Meilleurs modèles par Score Résolution d'énigmes

Score Résolution d'énigmes vs coût total

Meilleurs modèles par Temps de réponse (moy.)