Classement des modèles pour Combiné

Catégorie AI BENCHY

Voyez quels modèles d'IA réussissent le mieux sur Combiné, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Tests corrects ↓.

Modèles affichés

Moyenne de Score Combiné

6.3

Meilleur modèle

Gemini 3 Flash Preview 10.0

Raisons d'échec

Avec la raison d'échec Mauvaise réponse52 Avec la raison d'échec Appel d'outil invalide19 Avec la raison d'échec Erreur API13 Avec la raison d'échec Aucune réponse2 Avec la raison d'échec Délai dépassé2 Avec la raison d'échec N'a pas suivi les instructions1

Rang	Modèle	Entreprise	Score Combiné	Score	Tests corrects	Temps de réponse (moy.)
#79	Hunter Alpha medium	OpenRouter	4.7	6.7	0/1	30.5s
#83	Step 3.5 Flash none	Stepfun	3.0	6.6	0/1	0ms
#84	Grok 4.20 Multi Agent Beta medium	X AI	3.0	6.6	0/1	0ms
#85	Gemma 4 31B none	Google	3.0	6.5	0/1	0ms
#87	Gemini 3.1 Flash Lite minimal	Google	3.0	6.4	0/1	2.53s
#90	Gemini 3.1 Flash Lite none	Google	3.0	6.4	0/1	2.73s
#91	GPT-5.5 none	OpenAI	3.0	6.4	0/1	5.56s
#92	Laguna M.1 medium	Poolside	3.0	6.4	0/1	53.1s
#95	Qwen3.5 Plus 2026-02-15 none	Qwen	3.0	6.3	0/1	6.65s
#96	Ring-2.6-1T none	Inclusionai	3.0	6.2	0/1	0ms
#97	Gemini 2.5 Flash none	Google	3.0	6.2	0/1	4.39s
#98	GLM 5 none	Z.ai	3.0	6.1	0/1	4.98s
#100	Grok Build 0.1 none	X AI	3.0	6.0	0/1	0ms
#101	Mimo V2 Omni none	Xiaomi	3.0	6.0	0/1	5.96s
#102	Gemma 4 26B A4B none	Google	3.0	6.0	0/1	30.5s

Classement Combiné

Meilleurs modèles par Score Combiné

Score Combiné vs coût total

Meilleurs modèles par Temps de réponse (moy.)