AI BENCHY زمرہ
معلومات عامہ درجہ بندی
دیکھیں کہ معلومات عامہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔
169/169
ماڈلز فلٹر کریں
موجودہ تلاش اور فلٹرز سے کوئی ماڈل مطابقت نہیں رکھتا۔
| درجہ | ماڈل | کمپنی | معلومات عامہ اسکور | اسکور | کل لاگت | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|---|
| #162 | Laguna Xs.2 none | Poolside | 3.0 | 4.0 | $0.000 | 0/1 | 0ms |
| #163 | Granite 4.1 8B none | IBM Granite | 3.0 | 4.0 | $0.003 | 0/1 | 306ms |
| #164 | gpt-oss-120b none | OpenAI | 3.0 | 4.0 | $0.010 | 0/1 | 47.3s |
| #165 | Qwen3.5-9B medium | Qwen | 3.0 | 3.8 | $0.036 | 0/1 | 177.0s |
| #166 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 3.0 | 3.6 | $0.000 | 0/1 | 0ms |
| #167 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 3.0 | 3.5 | $0.000 | 0/1 | 0ms |
| #168 | Step 3.5 Flash none | Stepfun | 3.0 | 2.6 | $0.020 | 0/1 | 114.1s |
| #9 | GPT-5.5 medium | OpenAI | 2.8 | 9.0 | $3.679 | 0/1 | 37.9s |
| #10 | GPT-5.3-Codex medium | OpenAI | 2.8 | 8.9 | $0.740 | 0/1 | 14.4s |
| #66 | Gemini 3.5 Flash none | 2.8 | 7.0 | $1.079 | 0/1 | 4.87s | |
| #69 | Grok 4.20 Beta medium | X AI | 0.0 | 6.8 | $0.750 | 0/0 | 0ms |
| #83 | Gemini 3.1 Flash Lite high | 0.0 | 6.5 | $2.044 | 0/0 | 0ms | |
| #95 | Gemini 3.1 Flash Lite Preview high | 0.0 | 6.1 | $2.310 | 0/0 | 0ms | |
| #132 | Hunter Alpha medium | OpenRouter | 0.0 | 5.1 | $0.000 | 0/0 | 0ms |
| #136 | Grok 4.20 Multi Agent Beta medium | X AI | 0.0 | 5.0 | $5.599 | 0/0 | 0ms |