AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

GPT-4o-mini 13
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#36 GPT-5.3 Chat none OpenAI 5 7.7 11/18 5.88s
#48 Gemma 4 31B none Google 5 6.9 10/18 4.02s
#71 MiniMax M2.5 medium Minimax 5 5.7 5/18 39.6s
#80 MiniMax M2.7 medium Minimax 5 5.3 4/18 31.1s
#15 Gemini 2.5 Flash medium Google 4 8.2 13/18 12.1s
#17 Gemini 3.1 Flash Lite Preview medium Google 4 8.2 13/18 3.74s
#22 Gemini 3.1 Flash Lite Preview low Google 4 8.1 13/18 3.22s
#29 Gemini 3.1 Flash Lite Preview none Google 4 7.9 12/18 1.30s
#38 GPT-5.4 Nano medium OpenAI 4 7.6 11/18 11.2s
#44 GPT-5.4 Mini medium OpenAI 4 7.3 9/18 15.2s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#46 Kimi K2.5 medium Moonshot AI 4 7.0 9/18 72.4s
#50 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#5 Gemini 3 Flash Preview low Google 3 8.8 15/18 6.01s
#6 Seed-2.0-Lite medium Bytedance Seed 3 8.6 13/18 30.4s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)