Classement Résolution d'énigmes x Erreur API

Voyez quels modèles d'IA ont le plus de chances de rencontrer Erreur API sur Résolution d'énigmes, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

Nemotron 3 Nano Omni 30b A3b Reasoning 1

Raisons d'échec

Mauvaise réponse201 N'a pas suivi les instructions90 Erreur API12 Mise en forme supplémentaire8 Délai dépassé5 Aucune réponse3

Catégories

Programmation45 Combiné26 Appel d'outils17 Analyse et extraction des données14 Astuces anti-IA14 Culture générale13 Intelligence générale12 Résolution d'énigmes12 Spécifique au domaine7 Suivi des instructions1

11/11

Rang	Modèle	Entreprise	Nombre de Erreur API	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
Tests totaux 3 Tests incorrects 3 Coût total $0.000 Temps de réponse (moy.) 532ms
#205	Laguna Xs.2 none	Poolside	1	5.3	$0.004	1/3	650ms
Tests totaux 3 Tests incorrects 2 Coût total $0.004 Temps de réponse (moy.) 650ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/3	891ms
Tests totaux 3 Tests incorrects 3 Coût total $0.009 Temps de réponse (moy.) 891ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	2.9	$0.000	0/3	1.40s
Tests totaux 3 Tests incorrects 3 Coût total $0.000 Temps de réponse (moy.) 1.40s
#210	LFM2-24B-A2B none	Liquid	1	3.8	$0.001	0/3	1.78s
Tests totaux 3 Tests incorrects 3 Coût total $0.001 Temps de réponse (moy.) 1.78s
#198	Laguna Xs.2 medium	Poolside	1	5.3	$0.015	1/3	1.93s
Tests totaux 3 Tests incorrects 2 Coût total $0.015 Temps de réponse (moy.) 1.93s
#173	DeepSeek V3.2 none	DeepSeek	1	7.6	$0.054	2/3	6.91s
Tests totaux 3 Tests incorrects 1 Coût total $0.054 Temps de réponse (moy.) 6.91s
#153	Hy3 preview low	Tencent	1	5.3	$0.015	1/3	7.51s
Tests totaux 3 Tests incorrects 2 Coût total $0.015 Temps de réponse (moy.) 7.51s
#175	Qwen3.6 Plus Preview medium	Qwen	2	5.3	$0.000	1/3	7.52s
Tests totaux 3 Tests incorrects 2 Coût total $0.000 Temps de réponse (moy.) 7.52s
#186	Laguna M.1 medium	Poolside	1	5.3	$0.033	1/3	10.2s
Tests totaux 3 Tests incorrects 2 Coût total $0.033 Temps de réponse (moy.) 10.2s
#135	Hy3 preview high	Tencent	1	7.7	$0.048	2/3	27.9s
Tests totaux 3 Tests incorrects 1 Coût total $0.048 Temps de réponse (moy.) 27.9s

Filtrer les modèles

Meilleurs modèles par Nombre de Erreur API

Nombre de Erreur API vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Résolution d'énigmes : Erreur API

Filtrer les modèles

Meilleurs modèles par Nombre de Erreur API

Nombre de Erreur API vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé