Échecs AI BENCHY
Échecs Erreur API
Voyez quels modèles d'IA rencontrent le plus souvent Erreur API, pour repérer les risques de fiabilité avant de choisir. Trier par: Score ↑.
Modèles affichés
15
Échecs totaux
144
Modèle le plus touché
Nemotron 3 Nano Omni 30b A3b Reasoning 6Catégories
Dans la catégorie Programmation43 Dans la catégorie Analyse et extraction des données16 Dans la catégorie Appel d'outils15 Dans la catégorie Astuces anti-IA13 Dans la catégorie Combiné13 Dans la catégorie Résolution d'énigmes13 Dans la catégorie Culture générale12 Dans la catégorie Intelligence générale12 Dans la catégorie Spécifique au domaine6 Dans la catégorie Suivi des instructions1
| Rang | Modèle | Entreprise | Nombre de Erreur API | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 6 | 4.1 | 2/19 | 728ms |
| #161 | Qwen3.5-9B medium | Qwen | 1 | 4.2 | 3/21 | 82.2s |
| #160 | LFM2-24B-A2B none | Liquid | 4 | 4.2 | 2/16 | 782ms |
| #159 | Ling-2.6-1T none | Inclusionai | 3 | 4.3 | 3/21 | 7.72s |
| #156 | Hy3 preview none | Tencent | 4 | 4.4 | 4/21 | 12.9s |
| #153 | Qwen3.6 35B A3B none | Qwen | 2 | 4.6 | 4/21 | 3.73s |
| #152 | MiMo-V2-Flash none | Xiaomi | 1 | 4.6 | 4/21 | 2.76s |
| #151 | Trinity Large Preview none | Arcee AI | 2 | 4.6 | 4/21 | 2.98s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 6 | 4.6 | 4/19 | 17.1s |
| #146 | Laguna Xs.2 none | Poolside | 4 | 4.8 | 5/19 | 806ms |
| #145 | Laguna M.1 none | Poolside | 4 | 4.8 | 4/19 | 2.89s |
| #138 | Ling-2.6-flash none | Inclusionai | 2 | 5.0 | 6/21 | 9.34s |
| #137 | Elephant Alpha none | Openrouter | 3 | 5.1 | 5/21 | 1.22s |
| #136 | Elephant Alpha medium | Openrouter | 3 | 5.1 | 6/21 | 1.27s |
| #133 | DeepSeek V3.2 none | DeepSeek | 4 | 5.2 | 6/21 | 13.8s |