AI BENCHY श्रेणी
सूचनांचे पालन क्रमवारी
सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.
| क्रमांक | मॉडेल | कंपनी | सूचनांचे पालन स्कोअर | स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #16 | Gemini 3 Flash Preview low | 9.9 | 8.4 | 2/2 | 7.02s | |
| #42 | GPT-5.2 medium | OpenAI | 9.9 | 7.5 | 2/2 | 3.12s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 9.9 | 7.5 | 2/2 | 2.77s |
| #44 | Gemini 3.1 Flash Lite medium | 9.9 | 7.5 | 2/2 | 2.59s | |
| #51 | Mimo V2 PRO medium | Xiaomi | 9.9 | 7.4 | 2/2 | 3.36s |
| #56 | MiMo-V2.5 medium | Xiaomi | 9.9 | 7.3 | 2/2 | 1.80s |
| #59 | GLM 5V Turbo medium | Z.ai | 9.9 | 7.2 | 2/2 | 3.74s |
| #68 | Claude Opus 4.8 none | Anthropic | 9.9 | 7.0 | 2/2 | 1.37s |
| #79 | Hunter Alpha medium | OpenRouter | 9.9 | 6.7 | 2/2 | 4.18s |
| #99 | gpt-oss-120b medium | OpenAI | 9.9 | 6.1 | 2/2 | 7.63s |
| #20 | Gemini 3.5 Flash none | 9.8 | 8.1 | 2/2 | 3.38s | |
| #38 | Grok 4.3 medium | X AI | 9.8 | 7.6 | 2/2 | 18.6s |
| #47 | Grok Build 0.1 medium | X AI | 9.8 | 7.4 | 2/2 | 12.4s |
| #67 | MiniMax M3 medium | Minimax | 9.8 | 7.1 | 2/2 | 6.14s |
| #70 | GPT-5.4 Nano medium | OpenAI | 9.8 | 7.0 | 2/2 | 1.88s |