Classement Spécifique au domaine x Erreur API

Voyez quels modèles d'IA ont le plus de chances de rencontrer Erreur API sur Spécifique au domaine, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

LFM2-24B-A2B 1

Raisons d'échec

Mauvaise réponse412 Délai dépassé43 Mise en forme supplémentaire17 Aucune réponse8 Erreur API7 N'a pas suivi les instructions1

Catégories

Programmation45 Combiné26 Appel d'outils17 Analyse et extraction des données14 Astuces anti-IA14 Culture générale13 Intelligence générale12 Résolution d'énigmes12 Spécifique au domaine7 Suivi des instructions1

7/7

Rang	Modèle	Entreprise	Nombre de Erreur API	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#210	LFM2-24B-A2B none	Liquid	1	5.9	$0.001	1/3	287ms
Tests totaux 3 Tests incorrects 2 Coût total $0.001 Temps de réponse (moy.) 287ms
#173	DeepSeek V3.2 none	DeepSeek	1	2.9	$0.054	0/3	4.17s
Tests totaux 3 Tests incorrects 3 Coût total $0.054 Temps de réponse (moy.) 4.17s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	2.9	$0.041	0/3	4.99s
Tests totaux 3 Tests incorrects 3 Coût total $0.041 Temps de réponse (moy.) 4.99s
#167	Mistral Small 4 medium	Mistral	1	5.3	$0.096	1/3	6.11s
Tests totaux 3 Tests incorrects 2 Coût total $0.096 Temps de réponse (moy.) 6.11s
#199	Hy3 preview none	Tencent	1	3.6	$0.003	0/3	17.6s
Tests totaux 3 Tests incorrects 3 Coût total $0.003 Temps de réponse (moy.) 17.6s
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/3	22.1s
Tests totaux 3 Tests incorrects 3 Coût total $0.000 Temps de réponse (moy.) 22.1s
#27	Muse Spark 1.1 high	Meta	1	3.5	$1.694	0/3	67.4s
Tests totaux 3 Tests incorrects 3 Coût total $1.694 Temps de réponse (moy.) 67.4s

Filtrer les modèles

Meilleurs modèles par Nombre de Erreur API

Nombre de Erreur API vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Spécifique au domaine : Erreur API

Filtrer les modèles

Meilleurs modèles par Nombre de Erreur API

Nombre de Erreur API vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé