AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Échecs par catégorie AI BENCHY

Spécifique au domaine : Mauvaise réponse

Spécifique au domaine
Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Spécifique au domaine, pour repérer plus vite les points faibles.

Modèles affichés

15

Échecs totaux

314

Modèle le plus touché

Qwen3.6 Max Preview 3
Rang Modèle Entreprise Nombre de Mauvaise réponse Score de catégorie Tests corrects Temps de réponse (moy.)
#139 DeepSeek V4 Flash none DeepSeek 2 5.3 1/3 19.7s
#140 Qwen3 Coder Next none Qwen 2 5.3 1/3 962ms
#142 Mistral Small 4 none Mistral 2 5.3 1/3 367ms
#146 Laguna Xs.2 none Poolside 2 5.3 1/3 371ms
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 2 2.9 0/3 56.7s
#150 Qwen3 Coder Next medium Qwen 2 5.3 1/3 638ms
#151 Trinity Large Preview none Arcee AI 2 5.3 1/3 877ms
#152 MiMo-V2-Flash none Xiaomi 2 5.3 1/3 564ms
#155 Mercury 2 none Inception 2 5.3 1/3 534ms
#156 Hy3 preview none Tencent 2 3.6 0/3 17.6s
#157 Grok 4.1 Fast none X AI 2 5.9 1/3 1.06s
#158 GLM 4.7 Flash medium Z.ai 2 3.5 0/3 174.6s
#2 Gemini 3.5 Flash high Google 1 7.6 2/3 14.1s
#3 Gemini 3.5 Flash low Google 1 7.7 2/3 3.39s
#4 Gemini 3.1 Pro Preview medium Google 1 7.7 2/3 32.7s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé