AI BENCHY زمرہ
ہدایات کی پیروی درجہ بندی
دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔
| درجہ | ماڈل | کمپنی | ہدایات کی پیروی اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #89 | GPT-4o-mini none | OpenAI | 4.8 | 4.9 | 0/2 | 1.27s |
| #92 | Qwen3 Coder Next medium | Qwen | 4.8 | 4.7 | 0/2 | 7.34s |
| #98 | LFM2-24B-A2B none | Liquid | 4.8 | 4.1 | 0/2 | 1.09s |
| #70 | Qwen3.5-122B-A10B none | Qwen | 4.5 | 5.7 | 0/2 | 585ms |
| #60 | Gemma 4 26B A4B none | 4.4 | 6.2 | 0/2 | 1.08s | |
| #78 | Trinity Large Preview none | Arcee AI | 4.1 | 5.3 | 0/2 | 1.09s |
| #80 | MiniMax M2.7 medium | Minimax | 3.7 | 5.3 | 0/2 | 12.6s |
| #95 | Grok 4.1 Fast none | X AI | 3.0 | 4.5 | 0/2 | 923ms |