Échecs par catégorie AI BENCHY
Spécifique au domaine : Mauvaise réponse
Spécifique au domaine
Mauvaise réponse
Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Spécifique au domaine, pour repérer plus vite les points faibles. Trier par: Tests corrects ↓.
Raisons d'échec
| Rang | Modèle | Entreprise | Nombre de Mauvaise réponse | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #2 | Gemini 3.1 Pro Preview medium | 1 | 7.7 | 2/3 | 32.7s | |
| #4 | Claude Opus 4.7 none | Anthropic | 1 | 7.7 | 2/3 | 1.19s |
| #14 | Gemma 4 31B medium | 1 | 7.7 | 2/3 | 38.5s | |
| #21 | Gemini 3 Flash Preview none | 1 | 7.7 | 2/3 | 963ms | |
| #42 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.7 | 2/3 | 3.54s |
| #48 | Gemma 4 31B none | 1 | 7.7 | 2/3 | 3.22s | |
| #59 | Qwen3.5-Flash none | Qwen | 1 | 7.7 | 2/3 | 905ms |
| #63 | Qwen3.5-35B-A3B none | Qwen | 1 | 7.7 | 2/3 | 485ms |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 7.7 | 2/3 | 744ms |
| #5 | Gemini 3 Flash Preview low | 2 | 5.3 | 1/3 | 8.05s | |
| #6 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 5.9 | 1/3 | 88.7s |
| #7 | GPT-5.3-Codex medium | OpenAI | 2 | 5.9 | 1/3 | 64.3s |
| #8 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 1 | 5.3 | 1/3 | 17.5s |
| #10 | Qwen3.5-27B medium | Qwen | 1 | 5.3 | 1/3 | 79.5s |
| #11 | Gemini 3.1 Flash Lite Preview high | 2 | 5.3 | 1/3 | 127.6s |