Échecs par catégorie AI BENCHY
Spécifique au domaine : Mauvaise réponse
Spécifique au domaine
Mauvaise réponse
Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Spécifique au domaine, pour repérer plus vite les points faibles. Trier par: Tests corrects ↓.
Raisons d'échec
| Rang | Modèle | Entreprise | Nombre de Mauvaise réponse | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #2 | Gemini 3.5 Flash high | 1 | 7.6 | 2/3 | 14.1s | |
| #3 | Gemini 3.5 Flash low | 1 | 7.7 | 2/3 | 3.39s | |
| #4 | Gemini 3.1 Pro Preview medium | 1 | 7.7 | 2/3 | 32.7s | |
| #7 | Gemini 3.5 Flash medium | 1 | 7.7 | 2/3 | 5.24s | |
| #8 | Claude Opus 4.7 none | Anthropic | 1 | 7.7 | 2/3 | 1.19s |
| #20 | Gemini 3.5 Flash none | 1 | 7.6 | 2/3 | 10.6s | |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 7.7 | 2/3 | 48.3s |
| #27 | Gemma 4 31B medium | 1 | 7.7 | 2/3 | 38.5s | |
| #34 | Qwen3.7 Max none | Qwen | 1 | 7.7 | 2/3 | 975ms |
| #48 | Gemini 3 Flash Preview none | 1 | 7.7 | 2/3 | 963ms | |
| #74 | Qwen3.6 Max Preview none | Qwen | 1 | 7.7 | 2/3 | 1.22s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.7 | 2/3 | 3.54s |
| #85 | Gemma 4 31B none | 1 | 7.7 | 2/3 | 3.22s | |
| #108 | Qwen3.5-Flash none | Qwen | 1 | 7.7 | 2/3 | 905ms |
| #117 | Qwen3.5-35B-A3B none | Qwen | 1 | 7.7 | 2/3 | 485ms |