Classement Combiné x Erreur API

Voyez quels modèles d'IA ont le plus de chances de rencontrer Erreur API sur Combiné, pour repérer plus vite les points faibles. Trier par: Tests corrects ↓.

Modèles affichés

Échecs totaux

Modèle le plus touché

Kimi K3 1

Raisons d'échec

Appel d'outil invalide91 Mauvaise réponse68 Aucune réponse29 Erreur API26 Délai dépassé5 Mise en forme supplémentaire1 N'a pas suivi les instructions1

Catégories

Programmation45 Combiné26 Appel d'outils17 Analyse et extraction des données14 Astuces anti-IA14 Culture générale13 Intelligence générale12 Résolution d'énigmes12 Spécifique au domaine7 Suivi des instructions1

24/24

Rang	Modèle	Entreprise	Nombre de Erreur API	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#33	Kimi K3 max	Moonshot AI	1	6.5	$3.112	1/2	223.0s
Tests totaux 2 Tests incorrects 1 Coût total $3.112 Temps de réponse (moy.) 223.0s
#60	LongCat 2.0 medium	Meituan	1	7.3	$0.478	1/2	151.0s
Tests totaux 2 Tests incorrects 1 Coût total $0.478 Temps de réponse (moy.) 151.0s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	6.4	$0.387	1/2	111.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.387 Temps de réponse (moy.) 111.9s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.4	$0.467	1/2	135.7s
Tests totaux 2 Tests incorrects 1 Coût total $0.467 Temps de réponse (moy.) 135.7s
#130	Step 3.5 Flash medium	Stepfun	1	6.5	$0.108	1/2	813.7s
Tests totaux 2 Tests incorrects 1 Coût total $0.108 Temps de réponse (moy.) 813.7s
#140	Nemotron 3 Super medium	NVIDIA	1	6.4	$0.050	1/2	259.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.050 Temps de réponse (moy.) 259.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	74.5s
Tests totaux 2 Tests incorrects 1 Coût total $0.077 Temps de réponse (moy.) 74.5s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	19.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.048 Temps de réponse (moy.) 19.6s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	6.4	$0.041	1/2	55.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.041 Temps de réponse (moy.) 55.9s
#79	Gemini 3.5 Flash none	Google	2	3.0	$1.079	0/2	0ms
Tests totaux 2 Tests incorrects 2 Coût total $1.079 Temps de réponse (moy.) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
Tests totaux 2 Tests incorrects 2 Coût total $0.746 Temps de réponse (moy.) 817.6s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.163 Temps de réponse (moy.) 433.1s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
Tests totaux 2 Tests incorrects 2 Coût total $0.035 Temps de réponse (moy.) 30.0s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.095 Temps de réponse (moy.) 21.1s
#161	Qwen3.6 35B A3B none	Qwen	1	3.8	$0.061	0/2	39.5s
Tests totaux 2 Tests incorrects 2 Coût total $0.061 Temps de réponse (moy.) 39.5s

Filtrer les modèles

Meilleurs modèles par Nombre de Erreur API

Nombre de Erreur API vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Combiné : Erreur API

Filtrer les modèles

Meilleurs modèles par Nombre de Erreur API

Nombre de Erreur API vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé