AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

Qwen3.5-9B 1
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#97 Qwen3.5-9B medium Qwen 1 4.4 3/18 73.6s
#46 Kimi K2.5 medium Moonshot AI 4 7.0 9/18 72.4s
#39 Seed-2.0-Mini medium Bytedance Seed 2 7.5 11/18 69.7s
#11 Gemini 3.1 Flash Lite Preview high Google 3 8.4 12/16 68.8s
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#10 Qwen3.5-27B medium Qwen 1 8.4 13/18 53.0s
#8 Qwen3.5 Plus 2026-02-15 medium Qwen 2 8.5 14/18 46.6s
#27 DeepSeek V3.2 medium DeepSeek 3 8.0 12/18 46.4s
#34 Kimi K2.6 medium Moonshot AI 2 7.7 11/18 45.2s
#43 Qwen3.5-35B-A3B medium Qwen 2 7.4 10/18 44.5s
#57 GPT-5 Nano medium OpenAI 7 6.3 7/18 44.1s
#71 MiniMax M2.5 medium Minimax 5 5.7 5/18 39.6s
#93 GLM 4.7 Flash medium Z.ai 8 4.6 4/18 32.3s
#19 Qwen3.5-122B-A10B medium Qwen 3 8.1 13/18 31.4s
#80 MiniMax M2.7 medium Minimax 5 5.3 4/18 31.1s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)