Échecs AI BENCHY
Échecs Aucune réponse
Voyez quels modèles d'IA rencontrent le plus souvent Aucune réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↓.
Catégories
Dans la catégorie Programmation18 Dans la catégorie Culture générale6 Dans la catégorie Analyse et extraction des données5 Dans la catégorie Spécifique au domaine5 Dans la catégorie Appel d'outils2 Dans la catégorie Astuces anti-IA2 Dans la catégorie Combiné2 Dans la catégorie Suivi des instructions2 Dans la catégorie Résolution d'énigmes1
| Rang | Modèle | Entreprise | Nombre de Aucune réponse | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #76 | Kimi K2.5 medium | Moonshot AI | 2 | 6.8 | 10/21 | 98.4s |
| #161 | Qwen3.5-9B medium | Qwen | 2 | 4.2 | 3/21 | 82.2s |
| #66 | Qwen3.5-35B-A3B medium | Qwen | 2 | 7.1 | 11/21 | 72.6s |
| #62 | Step 3.5 Flash medium | Stepfun | 1 | 7.2 | 11/20 | 72.5s |
| #60 | Kimi K2.6 medium | Moonshot AI | 1 | 7.2 | 12/21 | 71.7s |
| #67 | MiniMax M3 medium | Minimax | 1 | 7.1 | 11/21 | 68.2s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 5.3 | 5/21 | 65.4s |
| #71 | Step 3.7 Flash high | Stepfun | 4 | 7.0 | 11/21 | 64.5s |
| #37 | Gemma 4 26B A4B medium | 2 | 7.6 | 14/21 | 63.4s | |
| #53 | Gemini 3.1 Flash Lite high | 1 | 7.3 | 10/18 | 62.0s | |
| #78 | Qwen3.6 27B medium | Qwen | 3 | 6.8 | 10/21 | 59.7s |
| #27 | Gemma 4 31B medium | 1 | 7.8 | 14/21 | 56.5s | |
| #80 | Mimo V2 Omni medium | Xiaomi | 2 | 6.7 | 10/21 | 41.2s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 5.3 | 5/21 | 38.2s |
| #158 | GLM 4.7 Flash medium | Z.ai | 3 | 4.4 | 4/21 | 35.1s |