AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 13
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#27 Gemma 4 31B medium Google 2 7.8 14/21 56.5s
#28 Gemini 2.5 Flash medium Google 6 7.8 14/21 15.5s
#26 Qwen3.6 Plus medium Qwen 5 7.9 14/21 30.7s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 4 7.9 14/21 73.8s
#24 GPT-5.2 Chat none OpenAI 6 7.9 14/21 7.13s
#23 GLM 5 Turbo medium Z.ai 4 8.0 14/21 23.0s
#22 Step 3.7 Flash medium Stepfun 5 8.0 14/21 20.4s
#21 GPT-5.4 medium OpenAI 5 8.0 14/21 22.3s
#20 Gemini 3.5 Flash none Google 3 8.1 15/21 9.93s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#18 Qwen3.7 Plus medium Qwen 5 8.2 15/21 38.9s
#17 GLM 5 medium Z.ai 3 8.3 15/21 33.5s
#16 Gemini 3 Flash Preview low Google 5 8.4 16/21 5.76s
#15 GPT-5.3-Codex medium OpenAI 4 8.4 15/21 16.2s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल