AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

GPT-4o-mini 13
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#7 GPT-5.3-Codex medium OpenAI 3 8.6 13/18 15.4s
#9 Qwen3.6 Plus Preview medium Qwen 3 8.5 13/17 13.9s
#11 Gemini 3.1 Flash Lite Preview high Google 3 8.4 12/16 68.8s
#12 Gemini 3 PRO Preview medium Google 3 8.4 14/18 9.06s
#16 GPT-5.4 medium OpenAI 3 8.2 13/18 18.6s
#18 GLM 5 Turbo medium Z.ai 3 8.1 12/18 17.7s
#19 Qwen3.5-122B-A10B medium Qwen 3 8.1 13/18 31.4s
#20 Qwen3.6 Plus medium Qwen 3 8.1 13/18 15.3s
#23 MiMo-V2-Pro medium Xiaomi 3 8.1 12/18 12.3s
#25 Grok 4.20 Beta medium X AI 3 8.0 12/18 9.81s
#27 DeepSeek V3.2 medium DeepSeek 3 8.0 12/18 46.4s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#31 GLM 5V Turbo medium Z.ai 3 7.8 11/18 15.0s
#33 GLM 5.1 medium Z.ai 3 7.8 12/18 24.1s
#35 MiMo-V2-Omni medium Xiaomi 3 7.7 11/18 16.8s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)