AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

पहेली समाधान: गलत उत्तर

पहेली समाधान
गलत उत्तर

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

85

सबसे अधिक प्रभावित मॉडल

Grok 4.20 1
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#82 Grok 4.20 none X AI 1 5.3 1/3 487ms
#91 Mercury 2 none Inception 3 3.1 0/3 533ms
#79 Grok 4.20 Beta none X AI 1 5.9 1/3 541ms
#62 Gemini 2.5 Flash none Google 1 5.7 1/3 576ms
#83 Mistral Small 4 none Mistral 1 3.1 0/3 589ms
#90 Qwen3.5-9B none Qwen 1 3.2 0/3 683ms
#60 Gemma 4 26B A4B none Google 1 5.7 1/3 739ms
#85 Elephant none Openrouter 2 3.3 0/3 849ms
#86 GPT-5.4 Mini none OpenAI 1 5.4 1/3 860ms
#81 Elephant medium Openrouter 1 3.7 0/3 867ms
#54 Mercury 2 medium Inception 1 3.9 0/3 934ms
#70 Qwen3.5-122B-A10B none Qwen 2 5.4 1/3 982ms
#74 GLM 4.7 Flash none Z.ai 1 4.4 0/3 1.00s
#21 Gemini 3 Flash Preview none Google 1 7.7 2/3 1.06s
#95 Grok 4.1 Fast none X AI 3 3.2 0/3 1.28s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल