Classement des modèles pour Combiné

Voyez quels modèles d'IA réussissent le mieux sur Combiné, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

Moyenne de Score Combiné

5.5

Meilleur modèle

Gemini 3.5 Flash 3.0

Raisons d'échec

Avec la raison d'échec Appel d'outil invalide96 Avec la raison d'échec Mauvaise réponse71 Avec la raison d'échec Aucune réponse33 Avec la raison d'échec Erreur API26 Avec la raison d'échec Délai dépassé5 Avec la raison d'échec Mise en forme supplémentaire1 Avec la raison d'échec N'a pas suivi les instructions1

220/220

Rang	Modèle	Entreprise	Score Combiné	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#208	Laguna Xs.2 medium	Poolside	1.5	4.1	$0.015	0/1	15.9s
Tests totaux 1 Tests incorrects 1 Coût total $0.015 Temps de réponse (moy.) 15.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.2	7.3	$0.115	1/2	16.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.115 Temps de réponse (moy.) 16.6s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	2/2	17.3s
Tests totaux 2 Tests incorrects 0 Coût total $0.517 Temps de réponse (moy.) 17.3s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	17.6s
Tests totaux 2 Tests incorrects 0 Coût total $1.316 Temps de réponse (moy.) 17.6s
#186	Nemotron 3 Super none	NVIDIA	3.0	4.9	$0.008	0/2	18.2s
Tests totaux 2 Tests incorrects 2 Coût total $0.008 Temps de réponse (moy.) 18.2s
#99	Claude Opus 4.7 none	Anthropic	4.8	6.6	$0.505	1/1	18.3s
Tests totaux 1 Tests incorrects 0 Coût total $0.505 Temps de réponse (moy.) 18.3s
#69	Gemini 3.1 Flash Lite medium	Google	7.2	7.3	$0.117	1/2	18.5s
Tests totaux 2 Tests incorrects 1 Coût total $0.117 Temps de réponse (moy.) 18.5s
#48	GPT-5.6 Luna high	OpenAI	10.0	7.7	$1.017	2/2	19.0s
Tests totaux 2 Tests incorrects 0 Coût total $1.017 Temps de réponse (moy.) 19.0s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	6.5	5.6	$0.048	1/2	19.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.048 Temps de réponse (moy.) 19.6s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
Tests totaux 1 Tests incorrects 0 Coût total $0.750 Temps de réponse (moy.) 20.9s
#135	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.095 Temps de réponse (moy.) 21.1s
#200	Laguna S 2.1 none	Poolside	2.9	4.5	$0.025	0/2	21.6s
Tests totaux 2 Tests incorrects 2 Coût total $0.025 Temps de réponse (moy.) 21.6s
#154	Owl Alpha none	Openrouter	1.5	5.6	$0.000	0/1	21.7s
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 21.7s
#129	Inkling low	Thinkingmachines	2.9	6.1	$0.187	0/2	22.7s
Tests totaux 2 Tests incorrects 2 Coût total $0.187 Temps de réponse (moy.) 22.7s
#170	Ling-2.6-1T none	Inclusionai	6.5	5.3	$0.016	1/2	23.8s
Tests totaux 2 Tests incorrects 1 Coût total $0.016 Temps de réponse (moy.) 23.8s

Classement Combiné

Filtrer les modèles

Meilleurs modèles par Score Combiné

Score Combiné vs coût total

Meilleurs modèles par Temps de réponse (moy.)