AI BENCHY
Your ad here

Échecs par catégorie AI BENCHY

Résolution d'énigmes : Mauvaise réponse

Résolution d'énigmes
Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Résolution d'énigmes, pour repérer plus vite les points faibles. Trier par: Tests corrects ↓.

Modèles affichés

15

Échecs totaux

85

Modèle le plus touché

Gemini 3.1 Flash Lite Preview 1
Rang Modèle Entreprise Nombre de Mauvaise réponse Score de catégorie Tests corrects Temps de réponse (moy.)
#11 Gemini 3.1 Flash Lite Preview high Google 1 7.7 2/3 46.3s
#15 Gemini 2.5 Flash medium Google 1 7.7 2/3 3.94s
#17 Gemini 3.1 Flash Lite Preview medium Google 1 7.7 2/3 3.58s
#21 Gemini 3 Flash Preview none Google 1 7.7 2/3 1.06s
#27 DeepSeek V3.2 medium DeepSeek 1 8.2 2/3 36.9s
#28 GPT-5.2 Chat none OpenAI 1 7.7 2/3 4.42s
#33 GLM 5.1 medium Z.ai 1 8.2 2/3 23.8s
#37 Claude Opus 4.6 medium Anthropic 1 7.7 2/3 4.60s
#39 Seed-2.0-Mini medium Bytedance Seed 1 8.2 2/3 25.9s
#41 MiMo-V2-Flash medium Xiaomi 1 7.7 2/3 3.77s
#49 Qwen3.5 Plus 2026-02-15 none Qwen 1 7.7 2/3 2.82s
#53 GLM 5 none Z.ai 1 7.7 2/3 2.05s
#64 DeepSeek V3.2 none DeepSeek 1 8.5 2/3 7.37s
#30 Step 3.5 Flash medium Stepfun 1 5.3 1/3 7.72s
#35 MiMo-V2-Omni medium Xiaomi 1 6.5 1/3 3.88s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé