AI BENCHY श्रेणी
डेटा पार्सिंग आणि निष्कर्षण क्रमवारी
डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.
| क्रमांक | मॉडेल | कंपनी | डेटा पार्सिंग आणि निष्कर्षण स्कोअर | स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #64 | MiMo-V2-Flash medium | Xiaomi | 6.5 | 7.2 | 1/2 | 0ms |
| #83 | Step 3.5 Flash none | Stepfun | 3.0 | 6.6 | 0/1 | 0ms |
| #127 | Grok 4.20 none | X AI | 10.0 | 5.4 | 2/2 | 522ms |
| #163 | Granite 4.1 8B none | IBM Granite | 3.0 | 4.0 | 0/2 | 575ms |
| #106 | Grok 4.20 Beta none | X AI | 10.0 | 5.8 | 2/2 | 601ms |
| #146 | Laguna Xs.2 none | Poolside | 10.0 | 4.8 | 2/2 | 646ms |
| #97 | Gemini 2.5 Flash none | 10.0 | 6.2 | 2/2 | 652ms | |
| #155 | Mercury 2 none | Inception | 7.3 | 4.5 | 1/2 | 667ms |
| #160 | LFM2-24B-A2B none | Liquid | 3.0 | 4.2 | 0/2 | 714ms |
| #142 | Mistral Small 4 none | Mistral | 10.0 | 4.9 | 2/2 | 822ms |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 2/2 | 843ms | |
| #154 | Qwen3.5-9B none | Qwen | 10.0 | 4.6 | 2/2 | 847ms |
| #157 | Grok 4.1 Fast none | X AI | 10.0 | 4.4 | 2/2 | 943ms |
| #136 | Elephant Alpha medium | Openrouter | 6.5 | 5.1 | 1/2 | 979ms |
| #131 | Qwen3.5-122B-A10B none | Qwen | 10.0 | 5.3 | 2/2 | 1.01s |