AI BENCHY زمرہ
ٹول کالنگ درجہ بندی
دیکھیں کہ ٹول کالنگ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.
| درجہ | ماڈل | کمپنی | ٹول کالنگ اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #28 | GPT-5.2 Chat none | OpenAI | 10.0 | 7.9 | 1/1 | 4.68s |
| #29 | Gemini 3.1 Flash Lite Preview none | 10.0 | 7.9 | 1/1 | 3.39s | |
| #30 | Step 3.5 Flash medium | Stepfun | 10.0 | 7.9 | 1/1 | 11.9s |
| #32 | Qwen3.5-Flash medium | Qwen | 10.0 | 7.8 | 1/1 | 10.3s |
| #34 | Kimi K2.6 medium | Moonshot AI | 10.0 | 7.7 | 1/1 | 8.92s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 10.0 | 7.7 | 1/1 | 11.1s |
| #36 | GPT-5.3 Chat none | OpenAI | 10.0 | 7.7 | 1/1 | 8.36s |
| #37 | Claude Opus 4.6 medium | Anthropic | 10.0 | 7.6 | 1/1 | 9.73s |
| #38 | GPT-5.4 Nano medium | OpenAI | 10.0 | 7.6 | 1/1 | 7.71s |
| #39 | Seed-2.0-Mini medium | Bytedance Seed | 10.0 | 7.5 | 1/1 | 88.7s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 10.0 | 7.5 | 1/1 | 27.8s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 10.0 | 7.4 | 1/1 | 4.11s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 10.0 | 7.4 | 1/1 | 4.65s |
| #45 | GPT-5 Mini medium | OpenAI | 10.0 | 7.0 | 1/1 | 18.6s |
| #46 | Kimi K2.5 medium | Moonshot AI | 10.0 | 7.0 | 1/1 | 31.7s |