AI BENCHY
Your ad here

Échecs par catégorie AI BENCHY

Suivi des instructions : Mauvaise réponse

Suivi des instructions
Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Suivi des instructions, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

15

Échecs totaux

44

Modèle le plus touché

Mistral Small 4 1
Rang Modèle Entreprise Nombre de Mauvaise réponse Score de catégorie Tests corrects Temps de réponse (moy.)
#83 Mistral Small 4 none Mistral 1 6.5 1/2 380ms
#82 Grok 4.20 none X AI 1 4.8 0/2 455ms
#90 Qwen3.5-9B none Qwen 1 6.5 1/2 514ms
#91 Mercury 2 none Inception 1 6.5 1/2 551ms
#70 Qwen3.5-122B-A10B none Qwen 2 4.5 0/2 585ms
#62 Gemini 2.5 Flash none Google 1 8.0 1/2 672ms
#79 Grok 4.20 Beta none X AI 1 4.8 0/2 687ms
#86 GPT-5.4 Mini none OpenAI 1 6.3 1/2 728ms
#96 GPT-5.4 Nano none OpenAI 1 5.0 0/2 787ms
#63 Qwen3.5-35B-A3B none Qwen 1 6.3 1/2 809ms
#67 Qwen3.5-27B none Qwen 2 4.8 0/2 815ms
#94 MiMo-V2-Flash none Xiaomi 1 6.5 1/2 857ms
#74 GLM 4.7 Flash none Z.ai 1 6.5 1/2 888ms
#95 Grok 4.1 Fast none X AI 2 3.0 0/2 923ms
#66 GPT-5.4 none OpenAI 1 6.5 1/2 1.07s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé