Échecs par catégorie AI BENCHY
Résolution d'énigmes : Erreur API
Résolution d'énigmes
Erreur API
Voyez quels modèles d'IA ont le plus de chances de rencontrer Erreur API sur Résolution d'énigmes, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↓.
Raisons d'échec
| Rang | Modèle | Entreprise | Nombre de Erreur API | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 5.9 | 1/3 | 34.8s |
| #82 | Hy3 preview high | Tencent | 1 | 7.7 | 2/3 | 27.9s |
| #92 | Laguna M.1 medium | Poolside | 1 | 5.3 | 1/3 | 10.2s |
| #93 | Qwen3.6 Plus Preview medium | Qwen | 2 | 5.3 | 1/3 | 7.52s |
| #89 | Hy3 preview low | Tencent | 1 | 5.3 | 1/3 | 7.51s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 7.6 | 2/3 | 6.91s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 5.3 | 1/3 | 1.93s |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 3.8 | 0/3 | 1.78s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 2.9 | 0/3 | 1.40s |
| #145 | Laguna M.1 none | Poolside | 1 | 3.0 | 0/3 | 891ms |
| #146 | Laguna Xs.2 none | Poolside | 1 | 5.3 | 1/3 | 650ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 3.0 | 0/3 | 532ms |