AI BENCHY श्रेणी अपयशे
डेटा पार्सिंग आणि निष्कर्षण: चुकीचे उत्तर
डेटा पार्सिंग आणि निष्कर्षण
चुकीचे उत्तर
डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | चुकीचे उत्तर संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #92 | Qwen3 Coder Next medium | Qwen | 1 | 6.5 | 1/2 | 81.8s |
| #76 | Kimi K2.5 none | Moonshot AI | 1 | 7.3 | 1/2 | 42.1s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 6.3 | 1/2 | 21.9s |
| #57 | GPT-5 Nano medium | OpenAI | 2 | 3.7 | 0/2 | 21.4s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 7.3 | 1/2 | 17.2s |
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.3 | 1/2 | 9.42s |
| #71 | MiniMax M2.5 medium | Minimax | 2 | 4.6 | 0/2 | 7.48s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 7.3 | 1/2 | 4.82s |
| #68 | gpt-oss-120b medium | OpenAI | 1 | 6.4 | 1/2 | 1.98s |
| #87 | Qwen3 Coder Next none | Qwen | 1 | 6.5 | 1/2 | 1.32s |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 6.5 | 1/2 | 1.11s |
| #54 | Mercury 2 medium | Inception | 1 | 7.3 | 1/2 | 1.11s |
| #85 | Elephant none | Openrouter | 1 | 6.5 | 1/2 | 1.04s |
| #81 | Elephant medium | Openrouter | 1 | 6.5 | 1/2 | 979ms |
| #98 | LFM2-24B-A2B none | Liquid | 2 | 3.0 | 0/2 | 714ms |