Classement Combiné x Erreur API

Voyez quels modèles d'IA ont le plus de chances de rencontrer Erreur API sur Combiné, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

Gemini 3.5 Flash 2

Raisons d'échec

Appel d'outil invalide91 Mauvaise réponse68 Aucune réponse29 Erreur API26 Délai dépassé5 Mise en forme supplémentaire1 N'a pas suivi les instructions1

Catégories

Programmation45 Combiné26 Appel d'outils17 Analyse et extraction des données14 Astuces anti-IA14 Culture générale13 Intelligence générale12 Résolution d'énigmes12 Spécifique au domaine7 Suivi des instructions1

24/24

Rang	Modèle	Entreprise	Nombre de Erreur API	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#79	Gemini 3.5 Flash none	Google	2	3.0	$1.079	0/2	0ms
Tests totaux 2 Tests incorrects 2 Coût total $1.079 Temps de réponse (moy.) 0ms
#179	Ring-2.6-1T none	Inclusionai	2	3.0	$0.026	0/2	0ms
Tests totaux 2 Tests incorrects 2 Coût total $0.026 Temps de réponse (moy.) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	1.5	$5.599	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $5.599 Temps de réponse (moy.) 0ms
#202	Grok Build 0.1 none	X AI	1	1.5	$0.547	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.547 Temps de réponse (moy.) 0ms
#206	gpt-oss-120b none	OpenAI	1	1.5	$0.010	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.010 Temps de réponse (moy.) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	1.5	$0.000	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	1.5	$0.000	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 0ms
#209	Step 3.5 Flash none	Stepfun	1	1.5	$0.020	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.020 Temps de réponse (moy.) 0ms
#210	LFM2-24B-A2B none	Liquid	1	1.5	$0.001	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.001 Temps de réponse (moy.) 0ms
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	19.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.048 Temps de réponse (moy.) 19.6s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.095 Temps de réponse (moy.) 21.1s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
Tests totaux 2 Tests incorrects 2 Coût total $0.035 Temps de réponse (moy.) 30.0s
#161	Qwen3.6 35B A3B none	Qwen	1	3.8	$0.061	0/2	39.5s
Tests totaux 2 Tests incorrects 2 Coût total $0.061 Temps de réponse (moy.) 39.5s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	6.4	$0.041	1/2	55.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.041 Temps de réponse (moy.) 55.9s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
Tests totaux 2 Tests incorrects 2 Coût total $0.067 Temps de réponse (moy.) 73.0s

Filtrer les modèles

Meilleurs modèles par Nombre de Erreur API

Nombre de Erreur API vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Combiné : Erreur API

Filtrer les modèles

Meilleurs modèles par Nombre de Erreur API

Nombre de Erreur API vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé