AI BENCHY श्रेणी
डेटा पार्सिंग आणि निष्कर्षण क्रमवारी
डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.
| क्रमांक | मॉडेल | कंपनी | डेटा पार्सिंग आणि निष्कर्षण स्कोअर | स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #84 | gpt-oss-120b none | OpenAI | 6.5 | 5.2 | 1/2 | 7.12s |
| #13 | GLM 5 medium | Z.ai | 7.1 | 8.4 | 1/2 | 8.90s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 7.3 | 8.1 | 1/2 | 17.2s |
| #74 | GLM 4.7 Flash none | Z.ai | 7.3 | 5.6 | 1/2 | 4.82s |
| #76 | Kimi K2.5 none | Moonshot AI | 7.3 | 5.5 | 1/2 | 42.1s |
| #32 | Qwen3.5-Flash medium | Qwen | 7.3 | 7.8 | 1/2 | 57.0s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 7.3 | 7.4 | 1/2 | 59.3s |
| #54 | Mercury 2 medium | Inception | 7.3 | 6.5 | 1/2 | 1.11s |
| #73 | Mistral Small 4 medium | Mistral | 7.3 | 5.7 | 1/2 | 1.23s |
| #91 | Mercury 2 none | Inception | 7.3 | 4.8 | 1/2 | 667ms |
| #1 | Gemini 3 Flash Preview medium | 10.0 | 10.0 | 2/2 | 4.72s | |
| #2 | Gemini 3.1 Pro Preview medium | 10.0 | 9.6 | 2/2 | 7.72s | |
| #3 | Claude Opus 4.7 medium | Anthropic | 10.0 | 9.2 | 2/2 | 2.37s |
| #4 | Claude Opus 4.7 none | Anthropic | 10.0 | 9.2 | 2/2 | 2.15s |
| #5 | Gemini 3 Flash Preview low | 10.0 | 8.8 | 2/2 | 9.40s |