AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Gemini 3 Flash Preview 1
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#124 Kimi K2.6 none Moonshot AI 11 5.5 7/21 13.3s
#125 GPT-5.4 none OpenAI 13 5.5 7/21 1.42s
#127 Grok 4.20 none X AI 10 5.4 6/18 1.11s
#128 Qwen3.6 Flash none Qwen 12 5.4 7/21 1.60s
#107 Laguna Xs.2 medium Poolside 6 5.8 6/19 6.73s
#126 gpt-oss-120b none OpenAI 8 5.4 6/19 21.6s
#122 GLM 4.7 Flash none Z.ai 13 5.5 6/21 2.86s
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#131 Qwen3.5-122B-A10B none Qwen 13 5.3 6/21 3.41s
#133 DeepSeek V3.2 none DeepSeek 7 5.2 6/21 13.8s
#134 GLM 5 Turbo none Z.ai 13 5.2 6/21 2.82s
#135 Kimi K2.5 none Moonshot AI 15 5.2 6/21 13.2s
#136 Elephant Alpha medium Openrouter 9 5.1 6/21 1.27s
#138 Ling-2.6-flash none Inclusionai 9 5.0 6/21 9.34s
#146 Laguna Xs.2 none Poolside 8 4.8 5/19 806ms

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल