AI BENCHY
Advertise here

Échecs par catégorie AI BENCHY

Résolution d'énigmes : Mauvaise réponse

Résolution d'énigmes
Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Résolution d'énigmes, pour repérer plus vite les points faibles.

Modèles affichés

15

Échecs totaux

147

Modèle le plus touché

Qwen3.5-Flash 3
Rang Modèle Entreprise Nombre de Mauvaise réponse Score de catégorie Tests corrects Temps de réponse (moy.)
#48 Gemini 3 Flash Preview none Google 1 7.7 2/3 1.05s
#54 GPT-5 Mini medium OpenAI 1 5.6 1/3 15.2s
#55 GLM 5.1 medium Z.ai 1 8.2 2/3 31.6s
#59 GLM 5V Turbo medium Z.ai 1 7.7 2/3 10.2s
#60 Kimi K2.6 medium Moonshot AI 1 6.0 1/3 25.1s
#62 Step 3.5 Flash medium Stepfun 1 5.3 1/3 7.22s
#64 MiMo-V2-Flash medium Xiaomi 1 7.7 2/3 3.87s
#65 Grok 4.20 medium X AI 1 7.7 2/3 6.22s
#67 MiniMax M3 medium Minimax 1 7.9 2/3 49.9s
#69 Claude Opus 4.6 medium Anthropic 1 7.7 2/3 4.71s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 1/3 37.7s
#73 Seed-2.0-Mini medium Bytedance Seed 1 8.2 2/3 31.8s
#75 Ring-2.6-1T medium Inclusionai 1 5.9 1/3 20.7s
#76 Kimi K2.5 medium Moonshot AI 1 5.3 1/3 43.2s
#78 Qwen3.6 27B medium Qwen 1 7.7 2/3 61.1s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé