Échecs AI BENCHY
Échecs Aucune réponse
Voyez quels modèles d'IA rencontrent le plus souvent Aucune réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Tests corrects ↑.
Catégories
Dans la catégorie Programmation18 Dans la catégorie Culture générale6 Dans la catégorie Analyse et extraction des données5 Dans la catégorie Spécifique au domaine5 Dans la catégorie Appel d'outils2 Dans la catégorie Astuces anti-IA2 Dans la catégorie Combiné2 Dans la catégorie Suivi des instructions2 Dans la catégorie Résolution d'énigmes1
| Rang | Modèle | Entreprise | Nombre de Aucune réponse | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #161 | Qwen3.5-9B medium | Qwen | 2 | 4.2 | 3/21 | 82.2s |
| #158 | GLM 4.7 Flash medium | Z.ai | 3 | 4.4 | 4/21 | 35.1s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 4.6 | 4/19 | 17.1s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 5.3 | 5/21 | 65.4s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 5.3 | 5/21 | 38.2s |
| #107 | Laguna Xs.2 medium | Poolside | 2 | 5.8 | 6/19 | 6.73s |
| #105 | Nemotron 3 Super medium | NVIDIA | 1 | 5.8 | 8/21 | 32.0s |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 6.5 | 9/19 | 23.8s |
| #92 | Laguna M.1 medium | Poolside | 1 | 6.4 | 9/19 | 14.7s |
| #76 | Kimi K2.5 medium | Moonshot AI | 2 | 6.8 | 10/21 | 98.4s |
| #78 | Qwen3.6 27B medium | Qwen | 3 | 6.8 | 10/21 | 59.7s |
| #80 | Mimo V2 Omni medium | Xiaomi | 2 | 6.7 | 10/21 | 41.2s |
| #66 | Qwen3.5-35B-A3B medium | Qwen | 2 | 7.1 | 11/21 | 72.6s |
| #67 | MiniMax M3 medium | Minimax | 1 | 7.1 | 11/21 | 68.2s |
| #71 | Step 3.7 Flash high | Stepfun | 4 | 7.0 | 11/21 | 64.5s |