AI BENCHY
Advertise here

AI BENCHY श्रेणी विफलताएँ

एंटी-एआई ट्रिक्स: गलत उत्तर

एंटी-एआई ट्रिक्स
गलत उत्तर

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

15

कुल विफलताएँ

245

सबसे अधिक प्रभावित मॉडल

Gemini 2.5 Flash 4
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#78 Qwen3.6 27B medium Qwen 1 8.3 3/4 12.6s
#81 Mercury 2 medium Inception 1 6.9 2/4 1.12s
#84 Grok 4.20 Multi Agent Beta medium X AI 1 6.9 2/4 3.46s
#86 Grok 4.1 Fast medium X AI 1 8.7 3/4 3.81s
#87 Gemini 3.1 Flash Lite minimal Google 1 8.3 3/4 1.10s
#92 Laguna M.1 medium Poolside 1 6.5 2/4 4.87s
#99 gpt-oss-120b medium OpenAI 1 6.7 2/4 10.2s
#100 Grok Build 0.1 none X AI 1 8.7 3/4 6.30s
#102 Gemma 4 26B A4B none Google 1 8.3 3/4 1.28s
#103 DeepSeek V4 Pro high DeepSeek 1 6.4 2/4 16.5s
#107 Laguna Xs.2 medium Poolside 1 6.9 2/4 2.68s
#119 Cobuddy medium Baidu 1 8.7 3/4 10.00s
#126 gpt-oss-120b none OpenAI 1 6.5 2/4 32.8s
#130 MiniMax M2.7 medium Minimax 1 7.9 2/4 40.3s
#133 DeepSeek V3.2 none DeepSeek 1 3.2 0/4 9.35s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल