Classement des modèles pour Résolution d'énigmes

Voyez quels modèles d'IA réussissent le mieux sur Résolution d'énigmes, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.

Modèles affichés

Moyenne de Score Résolution d'énigmes

6.7

Meilleur modèle

Step 3.5 Flash 0.0

Raisons d'échec

Avec la raison d'échec Mauvaise réponse201 Avec la raison d'échec N'a pas suivi les instructions90 Avec la raison d'échec Erreur API12 Avec la raison d'échec Mise en forme supplémentaire8 Avec la raison d'échec Délai dépassé5 Avec la raison d'échec Aucune réponse3

210/210

Rang	Modèle	Entreprise	Score Résolution d'énigmes	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#209	Step 3.5 Flash none	Stepfun	0.0	2.3	$0.020	0/0	0ms
Tests totaux 0 Tests incorrects 0 Coût total $0.020 Temps de réponse (moy.) 0ms
#182	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	1.84s
Tests totaux 3 Tests incorrects 3 Coût total $0.067 Temps de réponse (moy.) 1.84s
#178	Ling-2.6-flash none	Inclusionai	2.9	4.9	$0.002	0/3	6.51s
Tests totaux 3 Tests incorrects 3 Coût total $0.002 Temps de réponse (moy.) 6.51s
#194	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/3	12.9s
Tests totaux 3 Tests incorrects 3 Coût total $0.166 Temps de réponse (moy.) 12.9s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	1.40s
Tests totaux 3 Tests incorrects 3 Coût total $0.000 Temps de réponse (moy.) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	3.0	5.7	$0.050	0/3	3.15s
Tests totaux 3 Tests incorrects 3 Coût total $0.050 Temps de réponse (moy.) 3.15s
#155	Kimi K2.5 none	Moonshot AI	3.0	5.5	$0.127	0/3	4.04s
Tests totaux 3 Tests incorrects 3 Coût total $0.127 Temps de réponse (moy.) 4.04s
#160	Laguna XS 2.1 none	Poolside	3.0	5.3	$0.008	0/3	1.01s
Tests totaux 3 Tests incorrects 3 Coût total $0.008 Temps de réponse (moy.) 1.01s
#166	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/3	24.3s
Tests totaux 3 Tests incorrects 3 Coût total $0.025 Temps de réponse (moy.) 24.3s
#187	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/3	1.25s
Tests totaux 3 Tests incorrects 3 Coût total $0.032 Temps de réponse (moy.) 1.25s
#192	Laguna M.1 none	Poolside	3.0	4.4	$0.009	0/3	891ms
Tests totaux 3 Tests incorrects 3 Coût total $0.009 Temps de réponse (moy.) 891ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/3	1.10s
Tests totaux 3 Tests incorrects 3 Coût total $0.008 Temps de réponse (moy.) 1.10s
#204	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/3	32.3s
Tests totaux 3 Tests incorrects 3 Coût total $0.036 Temps de réponse (moy.) 32.3s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/3	532ms
Tests totaux 3 Tests incorrects 3 Coût total $0.000 Temps de réponse (moy.) 532ms
#150	DeepSeek V4 Flash none	DeepSeek	3.1	5.6	$0.044	0/3	23.7s
Tests totaux 3 Tests incorrects 3 Coût total $0.044 Temps de réponse (moy.) 23.7s

Classement Résolution d'énigmes

Filtrer les modèles

Meilleurs modèles par Score Résolution d'énigmes

Score Résolution d'énigmes vs coût total

Meilleurs modèles par Temps de réponse (moy.)