Échecs par catégorie AI BENCHY
Spécifique au domaine : Mauvaise réponse
Spécifique au domaine
Mauvaise réponse
Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Spécifique au domaine, pour repérer plus vite les points faibles.
Raisons d'échec
| Rang | Modèle | Entreprise | Nombre de Mauvaise réponse | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #16 | GPT-5.4 medium | OpenAI | 2 | 5.3 | 1/3 | 74.3s |
| #18 | GLM 5 Turbo medium | Z.ai | 2 | 2.9 | 0/3 | 71.1s |
| #22 | Gemini 3.1 Flash Lite Preview low | 2 | 5.3 | 1/3 | 2.36s | |
| #24 | Gemma 4 26B A4B medium | 2 | 2.9 | 0/3 | 23.6s | |
| #25 | Grok 4.20 Beta medium | X AI | 2 | 5.3 | 1/3 | 21.3s |
| #28 | GPT-5.2 Chat none | OpenAI | 2 | 5.3 | 1/3 | 17.8s |
| #29 | Gemini 3.1 Flash Lite Preview none | 2 | 5.3 | 1/3 | 942ms | |
| #30 | Step 3.5 Flash medium | Stepfun | 2 | 5.3 | 1/3 | 170.5s |
| #31 | GLM 5V Turbo medium | Z.ai | 2 | 5.3 | 1/3 | 38.1s |
| #38 | GPT-5.4 Nano medium | OpenAI | 2 | 5.9 | 1/3 | 38.2s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 2 | 5.9 | 1/3 | 96.0s |
| #45 | GPT-5 Mini medium | OpenAI | 2 | 3.6 | 0/3 | 44.6s |
| #46 | Kimi K2.5 medium | Moonshot AI | 2 | 3.5 | 0/3 | 137.3s |
| #49 | Qwen3.5 Plus 2026-02-15 none | Qwen | 2 | 5.3 | 1/3 | 1.17s |
| #51 | Nemotron 3 Super medium | NVIDIA | 2 | 2.9 | 0/3 | 16.2s |