Échecs par catégorie AI BENCHY
Résolution d'énigmes : Erreur API
Résolution d'énigmes
Erreur API
Voyez quels modèles d'IA ont le plus de chances de rencontrer Erreur API sur Résolution d'énigmes, pour repérer plus vite les points faibles. Trier par: Tests corrects ↑.
Raisons d'échec
| Rang | Modèle | Entreprise | Nombre de Erreur API | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #145 | Laguna M.1 none | Poolside | 1 | 3.0 | 0/3 | 891ms |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 2.9 | 0/3 | 1.40s |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 3.8 | 0/3 | 1.78s |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 3.0 | 0/3 | 532ms |
| #89 | Hy3 preview low | Tencent | 1 | 5.3 | 1/3 | 7.51s |
| #92 | Laguna M.1 medium | Poolside | 1 | 5.3 | 1/3 | 10.2s |
| #93 | Qwen3.6 Plus Preview medium | Qwen | 2 | 5.3 | 1/3 | 7.52s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 5.9 | 1/3 | 34.8s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 5.3 | 1/3 | 1.93s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 5.3 | 1/3 | 650ms |
| #82 | Hy3 preview high | Tencent | 1 | 7.7 | 2/3 | 27.9s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 7.6 | 2/3 | 6.91s |