AI BENCHY श्रेणी अपयशे
डेटा पार्सिंग आणि निष्कर्षण: चुकीचे उत्तर
डेटा पार्सिंग आणि निष्कर्षण
चुकीचे उत्तर
डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | चुकीचे उत्तर संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #91 | Mercury 2 none | Inception | 1 | 7.3 | 1/2 | 667ms |
| #98 | LFM2-24B-A2B none | Liquid | 2 | 3.0 | 0/2 | 714ms |
| #81 | Elephant medium | Openrouter | 1 | 6.5 | 1/2 | 979ms |
| #85 | Elephant none | Openrouter | 1 | 6.5 | 1/2 | 1.04s |
| #54 | Mercury 2 medium | Inception | 1 | 7.3 | 1/2 | 1.11s |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 6.5 | 1/2 | 1.11s |
| #87 | Qwen3 Coder Next none | Qwen | 1 | 6.5 | 1/2 | 1.32s |
| #68 | gpt-oss-120b medium | OpenAI | 1 | 6.4 | 1/2 | 1.98s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 7.3 | 1/2 | 4.82s |
| #71 | MiniMax M2.5 medium | Minimax | 2 | 4.6 | 0/2 | 7.48s |
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.3 | 1/2 | 9.42s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 7.3 | 1/2 | 17.2s |
| #57 | GPT-5 Nano medium | OpenAI | 2 | 3.7 | 0/2 | 21.4s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 6.3 | 1/2 | 21.9s |
| #76 | Kimi K2.5 none | Moonshot AI | 1 | 7.3 | 1/2 | 42.1s |