Échecs AI BENCHY
Échecs Aucune réponse
Voyez quels modèles d'IA rencontrent le plus souvent Aucune réponse, pour repérer les risques de fiabilité avant de choisir.
Catégories
Dans la catégorie Programmation18 Dans la catégorie Culture générale6 Dans la catégorie Analyse et extraction des données5 Dans la catégorie Spécifique au domaine5 Dans la catégorie Appel d'outils2 Dans la catégorie Astuces anti-IA2 Dans la catégorie Combiné2 Dans la catégorie Suivi des instructions2 Dans la catégorie Résolution d'énigmes1
| Rang | Modèle | Entreprise | Nombre de Aucune réponse | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #71 | Step 3.7 Flash high | Stepfun | 4 | 7.0 | 11/21 | 64.5s |
| #78 | Qwen3.6 27B medium | Qwen | 3 | 6.8 | 10/21 | 59.7s |
| #158 | GLM 4.7 Flash medium | Z.ai | 3 | 4.4 | 4/21 | 35.1s |
| #37 | Gemma 4 26B A4B medium | 2 | 7.6 | 14/21 | 63.4s | |
| #66 | Qwen3.5-35B-A3B medium | Qwen | 2 | 7.1 | 11/21 | 72.6s |
| #76 | Kimi K2.5 medium | Moonshot AI | 2 | 6.8 | 10/21 | 98.4s |
| #80 | Mimo V2 Omni medium | Xiaomi | 2 | 6.7 | 10/21 | 41.2s |
| #107 | Laguna Xs.2 medium | Poolside | 2 | 5.8 | 6/19 | 6.73s |
| #161 | Qwen3.5-9B medium | Qwen | 2 | 4.2 | 3/21 | 82.2s |
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 8.7 | 17/21 | 9.66s |
| #17 | GLM 5 medium | Z.ai | 1 | 8.3 | 15/21 | 33.5s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 8.0 | 14/21 | 20.4s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 8.0 | 14/21 | 23.0s |
| #27 | Gemma 4 31B medium | 1 | 7.8 | 14/21 | 56.5s | |
| #42 | GPT-5.2 medium | OpenAI | 1 | 7.5 | 13/21 | 16.9s |