AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

13

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Mistral Small 4 15
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#103 DeepSeek V4 Pro high DeepSeek 4 6.0 8/21 65.2s
#129 MiniMax M2.5 medium Minimax 7 5.3 5/21 65.4s
#12 Gemini 3.1 Flash Lite Preview high Google 2 8.6 13/16 68.1s
#67 MiniMax M3 medium Minimax 3 7.1 11/21 68.2s
#30 Qwen3.5-27B medium Qwen 4 7.8 13/21 68.4s
#72 DeepSeek V3.2 medium DeepSeek 5 7.0 11/21 68.7s
#60 Kimi K2.6 medium Moonshot AI 3 7.2 12/21 71.7s
#62 Step 3.5 Flash medium Stepfun 4 7.2 11/20 72.5s
#66 Qwen3.5-35B-A3B medium Qwen 2 7.1 11/21 72.6s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 4 7.9 14/21 73.8s
#73 Seed-2.0-Mini medium Bytedance Seed 4 6.9 11/21 80.2s
#161 Qwen3.5-9B medium Qwen 2 4.2 3/21 82.2s
#76 Kimi K2.5 medium Moonshot AI 5 6.8 10/21 98.4s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल