AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Échecs par catégorie AI BENCHY

Culture générale : Aucune réponse

Culture générale
Aucune réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Aucune réponse sur Culture générale, pour repérer plus vite les points faibles. Trier par: Nombre d'échecs ↑.

Modèles affichés

6

Échecs totaux

6

Modèle le plus touché

Claude Opus 4.8 1
Rang Modèle Entreprise Nombre de Aucune réponse Score de catégorie Tests corrects Temps de réponse (moy.)
#10 Claude Opus 4.8 medium Anthropic 1 3.0 0/1 6.14s
#22 Step 3.7 Flash medium Stepfun 1 3.0 0/1 114.0s
#57 Step 3.7 Flash low Stepfun 1 3.0 0/1 124.8s
#67 MiniMax M3 medium Minimax 1 3.0 0/1 100.8s
#68 Claude Opus 4.8 none Anthropic 1 3.0 0/1 3.41s
#71 Step 3.7 Flash high Stepfun 1 3.0 0/1 149.3s

Meilleurs modèles par Nombre de Aucune réponse

Nombre de Aucune réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé