Échecs par catégorie AI BENCHY
Analyse et extraction des données : Mauvaise réponse
Analyse et extraction des données
Mauvaise réponse
Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Analyse et extraction des données, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↓.
Raisons d'échec
| Rang | Modèle | Entreprise | Nombre de Mauvaise réponse | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #92 | Qwen3 Coder Next medium | Qwen | 1 | 6.5 | 1/2 | 81.8s |
| #76 | Kimi K2.5 none | Moonshot AI | 1 | 7.3 | 1/2 | 42.1s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 6.3 | 1/2 | 21.9s |
| #57 | GPT-5 Nano medium | OpenAI | 2 | 3.7 | 0/2 | 21.4s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 7.3 | 1/2 | 17.2s |
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.3 | 1/2 | 9.42s |
| #71 | MiniMax M2.5 medium | Minimax | 2 | 4.6 | 0/2 | 7.48s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 7.3 | 1/2 | 4.82s |
| #68 | gpt-oss-120b medium | OpenAI | 1 | 6.4 | 1/2 | 1.98s |
| #87 | Qwen3 Coder Next none | Qwen | 1 | 6.5 | 1/2 | 1.32s |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 6.5 | 1/2 | 1.11s |
| #54 | Mercury 2 medium | Inception | 1 | 7.3 | 1/2 | 1.11s |
| #85 | Elephant none | Openrouter | 1 | 6.5 | 1/2 | 1.04s |
| #81 | Elephant medium | Openrouter | 1 | 6.5 | 1/2 | 979ms |
| #98 | LFM2-24B-A2B none | Liquid | 2 | 3.0 | 0/2 | 714ms |