AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Nombre d'échecs ↑.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

Gemini 3.1 Pro Preview 1
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#2 Gemini 3.1 Pro Preview medium Google 1 9.6 17/18 16.0s
#3 Claude Opus 4.7 medium Anthropic 1 9.2 16/18 3.53s
#10 Qwen3.5-27B medium Qwen 1 8.4 13/18 53.0s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#97 Qwen3.5-9B medium Qwen 1 4.4 3/18 73.6s
#4 Claude Opus 4.7 none Anthropic 2 9.2 16/18 3.13s
#8 Qwen3.5 Plus 2026-02-15 medium Qwen 2 8.5 14/18 46.6s
#13 GLM 5 medium Z.ai 2 8.4 13/18 23.3s
#24 Gemma 4 26B A4B medium Google 2 8.0 13/18 25.0s
#26 Claude Sonnet 4.6 medium Anthropic 2 8.0 13/18 12.7s
#34 Kimi K2.6 medium Moonshot AI 2 7.7 11/18 45.2s
#37 Claude Opus 4.6 medium Anthropic 2 7.6 12/18 21.1s
#39 Seed-2.0-Mini medium Bytedance Seed 2 7.5 11/18 69.7s
#40 GPT-5.2 medium OpenAI 2 7.5 11/18 14.0s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)