AI BENCHY श्रेणी विफलताएँ
सामान्य ज्ञान: गलत उत्तर
सामान्य ज्ञान
गलत उत्तर
देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।
विफलता के कारण
133/133
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #144 | Ring-2.6-1T none | Inclusionai | 1 | 3.0 | $0.026 | 0/1 | 133.6s |
| #145 | GPT-5.4 Nano none | OpenAI | 1 | 3.0 | $0.011 | 0/1 | 773ms |
| #146 | MiniMax M2.5 medium | Minimax | 1 | 3.0 | $0.303 | 0/1 | 80.8s |
| #148 | Qwen3 Coder Next medium | Qwen | 1 | 3.0 | $0.008 | 0/1 | 399ms |
| #151 | Mercury 2 none | Inception | 1 | 3.0 | $0.011 | 0/1 | 548ms |
| #157 | GLM 4.7 Flash medium | Z.ai | 1 | 3.0 | $0.054 | 0/1 | 11.1s |
| #158 | Hy3 preview none | Tencent | 1 | 3.0 | $0.003 | 0/1 | 2.71s |
| #159 | MiMo-V2-Flash none | Xiaomi | 1 | 3.0 | $0.025 | 0/1 | 1.82s |
| #160 | Grok Build 0.1 none | X AI | 1 | 3.0 | $0.547 | 0/1 | 36.1s |
| #161 | Grok 4.1 Fast none | X AI | 1 | 3.0 | $0.008 | 0/1 | 731ms |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | $0.003 | 0/1 | 306ms |
| #164 | gpt-oss-120b none | OpenAI | 1 | 3.0 | $0.010 | 0/1 | 47.3s |
| #168 | Step 3.5 Flash none | Stepfun | 1 | 3.0 | $0.020 | 0/1 | 114.1s |