AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

Mercury 2 13
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#91 Mercury 2 none Inception 13 4.8 4/18 613ms
#83 Mistral Small 4 none Mistral 11 5.2 5/18 665ms
#98 LFM2-24B-A2B none Liquid 9 4.1 1/16 811ms
#62 Gemini 2.5 Flash none Google 10 6.2 7/18 903ms
#82 Grok 4.20 none X AI 9 5.2 5/18 1.11s
#86 GPT-5.4 Mini none OpenAI 10 5.1 5/18 1.17s
#79 Grok 4.20 Beta none X AI 10 5.3 4/18 1.19s
#85 Elephant none Openrouter 9 5.2 5/18 1.23s
#81 Elephant medium Openrouter 9 5.2 5/18 1.27s
#29 Gemini 3.1 Flash Lite Preview none Google 4 7.9 12/18 1.30s
#96 GPT-5.4 Nano none OpenAI 13 4.5 2/18 1.40s
#90 Qwen3.5-9B none Qwen 10 4.8 4/18 1.47s
#66 GPT-5.4 none OpenAI 10 5.9 7/18 1.51s
#21 Gemini 3 Flash Preview none Google 5 8.1 13/18 1.65s
#67 Qwen3.5-27B none Qwen 10 5.9 6/18 1.74s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)