AI BENCHY
Advertise here

Échecs par catégorie AI BENCHY

Spécifique au domaine : Mauvaise réponse

Spécifique au domaine
Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Spécifique au domaine, pour repérer plus vite les points faibles.

Modèles affichés

15

Échecs totaux

314

Modèle le plus touché

Qwen3.6 Max Preview 3
Rang Modèle Entreprise Nombre de Mauvaise réponse Score de catégorie Tests corrects Temps de réponse (moy.)
#56 MiMo-V2.5 medium Xiaomi 1 5.3 1/3 34.5s
#65 Grok 4.20 medium X AI 1 5.3 1/3 27.0s
#66 Qwen3.5-35B-A3B medium Qwen 1 4.1 0/3 88.3s
#69 Claude Opus 4.6 medium Anthropic 1 3.0 0/3 83.4s
#74 Qwen3.6 Max Preview none Qwen 1 7.7 2/3 1.22s
#77 Claude Sonnet 4.6 none Anthropic 1 7.7 2/3 3.54s
#79 Hunter Alpha medium OpenRouter 1 3.0 0/3 10.5s
#80 Mimo V2 Omni medium Xiaomi 1 3.0 0/3 47.9s
#85 Gemma 4 31B none Google 1 7.7 2/3 3.22s
#86 Grok 4.1 Fast medium X AI 1 5.8 1/3 121.8s
#94 GPT-5 Nano medium OpenAI 1 5.2 1/3 204.0s
#103 DeepSeek V4 Pro high DeepSeek 1 2.9 0/3 205.7s
#108 Qwen3.5-Flash none Qwen 1 7.7 2/3 905ms
#117 Qwen3.5-35B-A3B none Qwen 1 7.7 2/3 485ms
#118 Qwen3.6 27B none Qwen 1 7.7 2/3 3.03s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé