AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Tests corrects ↑.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

LFM2-24B-A2B 9
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#56 Grok 4.20 Multi Agent Beta medium X AI 3 6.4 7/18 9.80s
#57 GPT-5 Nano medium OpenAI 7 6.3 7/18 44.1s
#60 Gemma 4 26B A4B none Google 7 6.2 7/18 6.59s
#62 Gemini 2.5 Flash none Google 10 6.2 7/18 903ms
#63 Qwen3.5-35B-A3B none Qwen 9 6.1 7/18 3.82s
#64 DeepSeek V3.2 none DeepSeek 8 6.1 7/18 12.1s
#65 MiMo-V2-Pro none Xiaomi 9 6.0 7/18 2.39s
#66 GPT-5.4 none OpenAI 10 5.9 7/18 1.51s
#68 gpt-oss-120b medium OpenAI 7 5.8 7/18 16.1s
#69 Kimi K2.6 none Moonshot AI 8 5.8 7/18 2.05s
#50 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#54 Mercury 2 medium Inception 6 6.5 8/18 2.21s
#55 MiMo-V2-Omni none Xiaomi 8 6.5 8/18 1.99s
#58 GLM 5V Turbo none Z.ai 8 6.2 8/18 3.10s
#59 Qwen3.5-Flash none Qwen 9 6.2 8/18 3.25s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)