Échecs AI BENCHY
Échecs Aucune réponse
Voyez quels modèles d'IA rencontrent le plus souvent Aucune réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Nombre d'échecs ↑.
Catégories
Dans la catégorie Programmation18 Dans la catégorie Culture générale6 Dans la catégorie Analyse et extraction des données5 Dans la catégorie Spécifique au domaine5 Dans la catégorie Appel d'outils2 Dans la catégorie Astuces anti-IA2 Dans la catégorie Combiné2 Dans la catégorie Suivi des instructions2 Dans la catégorie Résolution d'énigmes1
| Rang | Modèle | Entreprise | Nombre de Aucune réponse | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #86 | Grok 4.1 Fast medium | X AI | 1 | 6.5 | 9/19 | 23.8s |
| #92 | Laguna M.1 medium | Poolside | 1 | 6.4 | 9/19 | 14.7s |
| #105 | Nemotron 3 Super medium | NVIDIA | 1 | 5.8 | 8/21 | 32.0s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 5.3 | 5/21 | 65.4s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 5.3 | 5/21 | 38.2s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 4.6 | 4/19 | 17.1s |
| #37 | Gemma 4 26B A4B medium | 2 | 7.6 | 14/21 | 63.4s | |
| #66 | Qwen3.5-35B-A3B medium | Qwen | 2 | 7.1 | 11/21 | 72.6s |
| #76 | Kimi K2.5 medium | Moonshot AI | 2 | 6.8 | 10/21 | 98.4s |
| #80 | Mimo V2 Omni medium | Xiaomi | 2 | 6.7 | 10/21 | 41.2s |
| #107 | Laguna Xs.2 medium | Poolside | 2 | 5.8 | 6/19 | 6.73s |
| #161 | Qwen3.5-9B medium | Qwen | 2 | 4.2 | 3/21 | 82.2s |
| #78 | Qwen3.6 27B medium | Qwen | 3 | 6.8 | 10/21 | 59.7s |
| #158 | GLM 4.7 Flash medium | Z.ai | 3 | 4.4 | 4/21 | 35.1s |
| #71 | Step 3.7 Flash high | Stepfun | 4 | 7.0 | 11/21 | 64.5s |