Classement des modèles pour Combiné

Voyez quels modèles d'IA réussissent le mieux sur Combiné, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Tests corrects ↑.

Modèles affichés

Moyenne de Score Combiné

5.5

Meilleur modèle

Muse Spark 1.1 5.9

Raisons d'échec

Avec la raison d'échec Appel d'outil invalide91 Avec la raison d'échec Mauvaise réponse68 Avec la raison d'échec Aucune réponse29 Avec la raison d'échec Erreur API26 Avec la raison d'échec Délai dépassé5 Avec la raison d'échec Mise en forme supplémentaire1 Avec la raison d'échec N'a pas suivi les instructions1

210/210

Rang	Modèle	Entreprise	Score Combiné	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#116	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
Tests totaux 2 Tests incorrects 2 Coût total $0.066 Temps de réponse (moy.) 25.6s
#117	GPT-5.6 Luna low	OpenAI	2.8	6.2	$0.249	0/2	13.7s
Tests totaux 2 Tests incorrects 2 Coût total $0.249 Temps de réponse (moy.) 13.7s
#118	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
Tests totaux 2 Tests incorrects 2 Coût total $0.017 Temps de réponse (moy.) 61.2s
#119	Qwen3.5-35B-A3B medium	Qwen	3.8	6.2	$0.837	0/2	512.8s
Tests totaux 2 Tests incorrects 2 Coût total $0.837 Temps de réponse (moy.) 512.8s
#120	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
Tests totaux 2 Tests incorrects 2 Coût total $0.047 Temps de réponse (moy.) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
Tests totaux 2 Tests incorrects 2 Coût total $0.046 Temps de réponse (moy.) 9.49s
#123	Inkling low	Thinkingmachines	2.9	6.1	$0.187	0/2	22.7s
Tests totaux 2 Tests incorrects 2 Coût total $0.187 Temps de réponse (moy.) 22.7s
#124	Qwen3.6 Flash none	Qwen	3.8	6.1	$0.062	0/2	26.5s
Tests totaux 2 Tests incorrects 2 Coût total $0.062 Temps de réponse (moy.) 26.5s
#125	Qwen3.5-Flash none	Qwen	2.9	6.1	$0.073	0/2	243.6s
Tests totaux 2 Tests incorrects 2 Coût total $0.073 Temps de réponse (moy.) 243.6s
#127	Qwen3.5-35B-A3B none	Qwen	3.8	6.1	$0.106	0/2	128.3s
Tests totaux 2 Tests incorrects 2 Coût total $0.106 Temps de réponse (moy.) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.095 Temps de réponse (moy.) 21.1s
#132	GPT-5.6 Terra none	OpenAI	2.9	6.0	$0.349	0/2	7.02s
Tests totaux 2 Tests incorrects 2 Coût total $0.349 Temps de réponse (moy.) 7.02s
#133	Gemini 3 PRO Preview medium	Google	1.5	6.0	$0.385	0/1	10.4s
Tests totaux 1 Tests incorrects 1 Coût total $0.385 Temps de réponse (moy.) 10.4s
#137	North Mini Code medium	Cohere	2.9	5.9	$0.000	0/2	554.9s
Tests totaux 2 Tests incorrects 2 Coût total $0.000 Temps de réponse (moy.) 554.9s
#138	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
Tests totaux 2 Tests incorrects 2 Coût total $0.184 Temps de réponse (moy.) 77.8s

Classement Combiné

Filtrer les modèles

Meilleurs modèles par Score Combiné

Score Combiné vs coût total

Meilleurs modèles par Temps de réponse (moy.)