Échecs AI BENCHY
Échecs Mise en forme supplémentaire
Voyez quels modèles d'IA rencontrent le plus souvent Mise en forme supplémentaire, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↑.
| Rang | Modèle | Entreprise | Nombre de Mise en forme supplémentaire | Score | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.0 | 2/21 | 728ms |
| #127 | Grok 4.20 none | X AI | 1 | 5.4 | 6/18 | 1.11s |
| #143 | MiMo-V2.5 none | Xiaomi | 1 | 4.9 | 5/21 | 2.20s |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 6.0 | 8/21 | 2.44s |
| #152 | MiMo-V2-Flash none | Xiaomi | 1 | 4.6 | 4/21 | 2.76s |
| #68 | Claude Opus 4.8 none | Anthropic | 3 | 7.0 | 12/21 | 3.47s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 4 | 6.8 | 11/21 | 5.04s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 4.9 | 5/21 | 8.62s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 6.6 | 8/18 | 9.69s |
| #121 | Owl Alpha none | Openrouter | 1 | 5.5 | 7/21 | 9.88s |
| #79 | Hunter Alpha medium | OpenRouter | 1 | 6.7 | 8/18 | 10.3s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 1 | 5.7 | 7/21 | 12.4s |
| #156 | Hy3 preview none | Tencent | 1 | 4.4 | 4/21 | 12.9s |
| #133 | DeepSeek V3.2 none | DeepSeek | 2 | 5.2 | 6/21 | 13.8s |
| #52 | Claude Sonnet 4.6 medium | Anthropic | 3 | 7.4 | 13/21 | 17.1s |