AI BENCHY
Your ad here

Échecs par catégorie AI BENCHY

Résolution d'énigmes : N'a pas suivi les instructions

Résolution d'énigmes
N'a pas suivi les instructions

Voyez quels modèles d'IA ont le plus de chances de rencontrer N'a pas suivi les instructions sur Résolution d'énigmes, pour repérer plus vite les points faibles. Trier par: Tests corrects ↑.

Modèles affichés

15

Échecs totaux

75

Modèle le plus touché

Kimi K2.6 2
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score de catégorie Tests corrects Temps de réponse (moy.)
#34 Kimi K2.6 medium Moonshot AI 2 5.0 0/3 25.6s
#38 GPT-5.4 Nano medium OpenAI 2 4.0 0/3 3.65s
#51 Nemotron 3 Super medium NVIDIA 2 3.5 0/3 8.39s
#54 Mercury 2 medium Inception 2 3.9 0/3 934ms
#59 Qwen3.5-Flash none Qwen 1 3.3 0/3 5.90s
#63 Qwen3.5-35B-A3B none Qwen 1 3.9 0/3 1.34s
#68 gpt-oss-120b medium OpenAI 2 3.2 0/3 11.8s
#69 Kimi K2.6 none Moonshot AI 2 3.4 0/3 1.66s
#73 Mistral Small 4 medium Mistral 2 3.4 0/3 2.00s
#74 GLM 4.7 Flash none Z.ai 2 4.4 0/3 1.00s
#80 MiniMax M2.7 medium Minimax 2 3.8 0/3 25.6s
#81 Elephant medium Openrouter 2 3.7 0/3 867ms
#83 Mistral Small 4 none Mistral 2 3.1 0/3 589ms
#84 gpt-oss-120b none OpenAI 2 4.5 0/3 6.86s
#85 Elephant none Openrouter 1 3.3 0/3 849ms

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé