AI BENCHY
Advertise here

Échecs par catégorie AI BENCHY

Spécifique au domaine : Mauvaise réponse

Spécifique au domaine
Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Spécifique au domaine, pour repérer plus vite les points faibles.

Modèles affichés

15

Échecs totaux

314

Modèle le plus touché

Qwen3.6 Max Preview 3
Rang Modèle Entreprise Nombre de Mauvaise réponse Score de catégorie Tests corrects Temps de réponse (moy.)
#82 Hy3 preview high Tencent 2 5.3 1/3 109.0s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 2.9 0/3 24.7s
#89 Hy3 preview low Tencent 2 5.9 1/3 40.4s
#92 Laguna M.1 medium Poolside 2 5.3 1/3 24.1s
#93 Qwen3.6 Plus Preview medium Qwen 2 3.0 0/3 22.1s
#95 Qwen3.5 Plus 2026-02-15 none Qwen 2 5.3 1/3 1.17s
#96 Ring-2.6-1T none Inclusionai 2 5.3 1/3 73.4s
#97 Gemini 2.5 Flash none Google 2 5.9 1/3 495ms
#100 Grok Build 0.1 none X AI 2 3.6 0/3 103.7s
#101 Mimo V2 Omni none Xiaomi 2 5.3 1/3 2.10s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 2 5.3 1/3 698ms
#105 Nemotron 3 Super medium NVIDIA 2 2.9 0/3 16.2s
#107 Laguna Xs.2 medium Poolside 2 4.1 0/3 11.1s
#109 GLM 5V Turbo none Z.ai 2 5.3 1/3 2.09s
#111 Owl Alpha medium Openrouter 2 5.3 1/3 8.58s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé