AI BENCHY
Advertise here

AI BENCHY अपयशे

चुकीचे उत्तर अपयशे

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

1204

सर्वाधिक प्रभावित मॉडेल

Gemini 3 Flash Preview 1
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#109 GLM 5V Turbo none Z.ai 11 5.8 8/21 2.99s
#110 Seed-2.0-Lite none Bytedance Seed 13 5.8 8/21 2.49s
#111 Owl Alpha medium Openrouter 10 5.7 8/21 11.9s
#100 Grok Build 0.1 none X AI 7 6.0 7/19 28.7s
#106 Grok 4.20 Beta none X AI 10 5.8 6/18 1.19s
#112 GLM 5.1 none Z.ai 13 5.7 7/21 4.10s
#113 DeepSeek V4 Pro none DeepSeek 10 5.7 7/21 12.4s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 12 5.7 7/21 4.39s
#115 Qwen3.5-27B none Qwen 12 5.7 7/21 1.68s
#116 Hunter Alpha none OpenRouter 9 5.7 6/18 4.70s
#117 Qwen3.5-35B-A3B none Qwen 12 5.6 7/21 3.37s
#118 Qwen3.6 27B none Qwen 11 5.6 7/21 3.72s
#119 Cobuddy medium Baidu 9 5.6 7/21 39.9s
#120 Mimo V2 PRO none Xiaomi 11 5.6 7/21 2.27s
#121 Owl Alpha none Openrouter 10 5.5 7/21 9.88s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स