Classement des modèles pour Résolution d'énigmes

Voyez quels modèles d'IA réussissent le mieux sur Résolution d'énigmes, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Tests corrects ↓.

Modèles affichés

Moyenne de Score Résolution d'énigmes

6.7

Meilleur modèle

Gemini 3.6 Flash 10.0

Raisons d'échec

Avec la raison d'échec Mauvaise réponse204 Avec la raison d'échec N'a pas suivi les instructions90 Avec la raison d'échec Erreur API12 Avec la raison d'échec Mise en forme supplémentaire8 Avec la raison d'échec Délai dépassé5 Avec la raison d'échec Aucune réponse3

216/216

Rang	Modèle	Entreprise	Score Résolution d'énigmes	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#43	GPT-5.6 Terra medium	OpenAI	8.4	7.8	$0.676	2/3	3.78s
Tests totaux 3 Tests incorrects 1 Coût total $0.676 Temps de réponse (moy.) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	7.7	7.7	$3.059	2/3	4.71s
Tests totaux 3 Tests incorrects 1 Coût total $3.059 Temps de réponse (moy.) 4.71s
#48	GPT-5.6 Luna high	OpenAI	7.6	7.7	$1.017	2/3	14.6s
Tests totaux 3 Tests incorrects 1 Coût total $1.017 Temps de réponse (moy.) 14.6s
#49	DeepSeek V4 Flash high	DeepSeek	8.2	7.7	$0.041	2/3	26.1s
Tests totaux 3 Tests incorrects 1 Coût total $0.041 Temps de réponse (moy.) 26.1s
#51	MiniMax M3 medium	Minimax	7.9	7.6	$0.286	2/3	49.9s
Tests totaux 3 Tests incorrects 1 Coût total $0.286 Temps de réponse (moy.) 49.9s
#52	Grok Build 0.1 medium	X AI	7.7	7.6	$1.097	2/3	18.3s
Tests totaux 3 Tests incorrects 1 Coût total $1.097 Temps de réponse (moy.) 18.3s
#53	GLM 5 Turbo medium	Z.ai	8.7	7.6	$0.323	2/3	5.23s
Tests totaux 3 Tests incorrects 1 Coût total $0.323 Temps de réponse (moy.) 5.23s
#54	GPT-5.6 Luna medium	OpenAI	7.8	7.6	$0.352	2/3	4.04s
Tests totaux 3 Tests incorrects 1 Coût total $0.352 Temps de réponse (moy.) 4.04s
#60	GPT-5.4 Mini medium	OpenAI	7.8	7.5	$0.756	2/3	4.37s
Tests totaux 3 Tests incorrects 1 Coût total $0.756 Temps de réponse (moy.) 4.37s
#62	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
Tests totaux 3 Tests incorrects 1 Coût total $1.627 Temps de réponse (moy.) 59.6s
#67	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	2.53s
Tests totaux 3 Tests incorrects 1 Coût total $0.661 Temps de réponse (moy.) 2.53s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.7	7.3	$0.115	2/3	5.30s
Tests totaux 3 Tests incorrects 1 Coût total $0.115 Temps de réponse (moy.) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
Tests totaux 3 Tests incorrects 1 Coût total $0.117 Temps de réponse (moy.) 1.95s
#70	Claude Opus 4.8 none	Anthropic	7.7	7.3	$1.166	2/3	2.74s
Tests totaux 3 Tests incorrects 1 Coût total $1.166 Temps de réponse (moy.) 2.74s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	8.2	7.2	$0.482	2/3	3.38s
Tests totaux 3 Tests incorrects 1 Coût total $0.482 Temps de réponse (moy.) 3.38s

Classement Résolution d'énigmes

Filtrer les modèles

Meilleurs modèles par Score Résolution d'énigmes

Score Résolution d'énigmes vs coût total

Meilleurs modèles par Temps de réponse (moy.)