AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Échecs par catégorie AI BENCHY

Résolution d'énigmes : Mauvaise réponse

Résolution d'énigmes
Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Résolution d'énigmes, pour repérer plus vite les points faibles. Trier par: Tests corrects ↑.

Modèles affichés

15

Échecs totaux

85

Modèle le plus touché

Kimi K2.6 1
Rang Modèle Entreprise Nombre de Mauvaise réponse Score de catégorie Tests corrects Temps de réponse (moy.)
#34 Kimi K2.6 medium Moonshot AI 1 5.0 0/3 25.6s
#38 GPT-5.4 Nano medium OpenAI 1 4.0 0/3 3.65s
#51 Nemotron 3 Super medium NVIDIA 1 3.5 0/3 8.39s
#54 Mercury 2 medium Inception 1 3.9 0/3 934ms
#59 Qwen3.5-Flash none Qwen 2 3.3 0/3 5.90s
#63 Qwen3.5-35B-A3B none Qwen 2 3.9 0/3 1.34s
#68 gpt-oss-120b medium OpenAI 1 3.2 0/3 11.8s
#69 Kimi K2.6 none Moonshot AI 1 3.4 0/3 1.66s
#73 Mistral Small 4 medium Mistral 1 3.4 0/3 2.00s
#74 GLM 4.7 Flash none Z.ai 1 4.4 0/3 1.00s
#76 Kimi K2.5 none Moonshot AI 3 3.1 0/3 4.73s
#80 MiniMax M2.7 medium Minimax 1 3.8 0/3 25.6s
#81 Elephant medium Openrouter 1 3.7 0/3 867ms
#83 Mistral Small 4 none Mistral 1 3.1 0/3 589ms
#84 gpt-oss-120b none OpenAI 1 4.5 0/3 6.86s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé