AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Score ↑.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

LFM2-24B-A2B 9
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#53 GLM 5 none Z.ai 9 6.6 9/18 4.23s
#52 Grok 4.1 Fast medium X AI 3 6.7 9/18 23.9s
#51 Nemotron 3 Super medium NVIDIA 3 6.7 9/18 19.1s
#50 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#49 Qwen3.5 Plus 2026-02-15 none Qwen 9 6.8 9/18 2.60s
#48 Gemma 4 31B none Google 5 6.9 10/18 4.02s
#47 Grok 4.20 medium X AI 3 7.0 9/18 10.3s
#46 Kimi K2.5 medium Moonshot AI 4 7.0 9/18 72.4s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#44 GPT-5.4 Mini medium OpenAI 4 7.3 9/18 15.2s
#43 Qwen3.5-35B-A3B medium Qwen 2 7.4 10/18 44.5s
#42 Claude Sonnet 4.6 none Anthropic 3 7.4 11/18 4.98s
#41 MiMo-V2-Flash medium Xiaomi 3 7.5 11/18 23.4s
#40 GPT-5.2 medium OpenAI 2 7.5 11/18 14.0s
#39 Seed-2.0-Mini medium Bytedance Seed 2 7.5 11/18 69.7s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)