AI BENCHY
Advertise here

AI BENCHY श्रेणी अपयशे

अँटी-एआय युक्त्या: चुकीचे उत्तर

अँटी-एआय युक्त्या
चुकीचे उत्तर

अँटी-एआय युक्त्या मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

245

सर्वाधिक प्रभावित मॉडेल

Gemini 2.5 Flash 4
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#97 Gemini 2.5 Flash none Google 4 3.0 0/4 582ms
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 4 3.5 0/4 2.35s
#106 Grok 4.20 Beta none X AI 4 4.0 0/4 597ms
#108 Qwen3.5-Flash none Qwen 4 3.5 0/4 1.32s
#110 Seed-2.0-Lite none Bytedance Seed 4 3.0 0/4 2.43s
#112 GLM 5.1 none Z.ai 4 4.0 0/4 2.11s
#116 Hunter Alpha none OpenRouter 4 3.5 0/4 3.81s
#117 Qwen3.5-35B-A3B none Qwen 4 3.4 0/4 1.43s
#118 Qwen3.6 27B none Qwen 4 3.8 0/4 2.83s
#120 Mimo V2 PRO none Xiaomi 4 3.5 0/4 1.80s
#125 GPT-5.4 none OpenAI 4 3.2 0/4 1.21s
#128 Qwen3.6 Flash none Qwen 4 3.1 0/4 1.63s
#134 GLM 5 Turbo none Z.ai 4 3.0 0/4 2.84s
#135 Kimi K2.5 none Moonshot AI 4 3.6 0/4 6.24s
#139 DeepSeek V4 Flash none DeepSeek 4 3.0 0/4 20.2s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स