Échecs par catégorie AI BENCHY
Spécifique au domaine : Mauvaise réponse
Spécifique au domaine
Mauvaise réponse
Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Spécifique au domaine, pour repérer plus vite les points faibles.
Raisons d'échec
| Rang | Modèle | Entreprise | Nombre de Mauvaise réponse | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #38 | Grok 4.3 medium | X AI | 2 | 5.3 | 1/3 | 181.7s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 2 | 5.3 | 1/3 | 22.5s |
| #50 | Gemini 3.1 Flash Lite Preview low | 2 | 5.3 | 1/3 | 2.36s | |
| #54 | GPT-5 Mini medium | OpenAI | 2 | 3.6 | 0/3 | 44.6s |
| #57 | Step 3.7 Flash low | Stepfun | 2 | 5.3 | 1/3 | 43.3s |
| #58 | Gemini 3.1 Flash Lite Preview none | 2 | 5.3 | 1/3 | 942ms | |
| #59 | GLM 5V Turbo medium | Z.ai | 2 | 5.3 | 1/3 | 38.1s |
| #61 | Gemini 3.1 Flash Lite low | 2 | 5.3 | 1/3 | 1.52s | |
| #62 | Step 3.5 Flash medium | Stepfun | 2 | 5.3 | 1/3 | 170.5s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 2 | 5.9 | 1/3 | 96.0s |
| #68 | Claude Opus 4.8 none | Anthropic | 2 | 5.3 | 1/3 | 1.66s |
| #70 | GPT-5.4 Nano medium | OpenAI | 2 | 5.9 | 1/3 | 38.2s |
| #71 | Step 3.7 Flash high | Stepfun | 2 | 4.1 | 0/3 | 149.6s |
| #72 | DeepSeek V3.2 medium | DeepSeek | 2 | 2.9 | 0/3 | 24.3s |
| #76 | Kimi K2.5 medium | Moonshot AI | 2 | 3.5 | 0/3 | 137.3s |