AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Nombre d'échecs ↑.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

Gemini 3.1 Pro Preview 1
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#31 GLM 5V Turbo medium Z.ai 3 7.8 11/18 15.0s
#33 GLM 5.1 medium Z.ai 3 7.8 12/18 24.1s
#35 MiMo-V2-Omni medium Xiaomi 3 7.7 11/18 16.8s
#41 MiMo-V2-Flash medium Xiaomi 3 7.5 11/18 23.4s
#42 Claude Sonnet 4.6 none Anthropic 3 7.4 11/18 4.98s
#47 Grok 4.20 medium X AI 3 7.0 9/18 10.3s
#51 Nemotron 3 Super medium NVIDIA 3 6.7 9/18 19.1s
#52 Grok 4.1 Fast medium X AI 3 6.7 9/18 23.9s
#56 Grok 4.20 Multi Agent Beta medium X AI 3 6.4 7/18 9.80s
#15 Gemini 2.5 Flash medium Google 4 8.2 13/18 12.1s
#17 Gemini 3.1 Flash Lite Preview medium Google 4 8.2 13/18 3.74s
#22 Gemini 3.1 Flash Lite Preview low Google 4 8.1 13/18 3.22s
#29 Gemini 3.1 Flash Lite Preview none Google 4 7.9 12/18 1.30s
#38 GPT-5.4 Nano medium OpenAI 4 7.6 11/18 11.2s
#44 GPT-5.4 Mini medium OpenAI 4 7.3 9/18 15.2s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)