AI BENCHY
Advertise here

Échecs par catégorie AI BENCHY

Intelligence générale : Mauvaise réponse

Intelligence générale
Mauvaise réponse

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mauvaise réponse sur Intelligence générale, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

15

Échecs totaux

32

Modèle le plus touché

Granite 4.1 8B 1
Rang Modèle Entreprise Nombre de Mauvaise réponse Score de catégorie Tests corrects Temps de réponse (moy.)
#163 Granite 4.1 8B none IBM Granite 1 4.0 0/1 499ms
#97 Gemini 2.5 Flash none Google 1 5.0 0/1 615ms
#127 Grok 4.20 none X AI 1 4.8 0/1 659ms
#142 Mistral Small 4 none Mistral 1 4.0 0/1 729ms
#112 GLM 5.1 none Z.ai 1 5.0 0/1 790ms
#147 GPT-4o-mini none OpenAI 1 4.0 0/1 909ms
#141 Nemotron 3 Super none NVIDIA 1 4.6 0/1 950ms
#90 Gemini 3.1 Flash Lite none Google 1 4.0 0/1 992ms
#61 Gemini 3.1 Flash Lite low Google 1 4.0 0/1 1.37s
#138 Ling-2.6-flash none Inclusionai 1 4.0 0/1 1.45s
#122 GLM 4.7 Flash none Z.ai 1 4.0 0/1 1.59s
#74 Qwen3.6 Max Preview none Qwen 1 4.3 0/1 1.62s
#125 GPT-5.4 none OpenAI 1 4.4 0/1 1.78s
#95 Qwen3.5 Plus 2026-02-15 none Qwen 1 4.4 0/1 2.26s
#101 Mimo V2 Omni none Xiaomi 1 4.1 0/1 2.33s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé