#24
Qwen: Qwen3.5-Flash
Qwen · qwen/qwen3.5-flash-02-23::medium
اوسط اسکور
5.79
فی نتیجہ لاگت
0.650
تسلسل
7.61
کل لاگت
$0.046
درست ٹیسٹس
7/14
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں
غلط ٹیسٹس
7
فی کوشش کامیابی کی شرح: 66.7%
غیر مستحکم ٹیسٹ
4
ردِعمل کا وقت: اوسط 86.89s · کل 1216.50s · زیادہ سے زیادہ 234.29s
ٹائم آؤٹ: 3
API خرابی: 2
ہدایات پر عمل نہیں کیا: 1
غلط جواب: 1
اسکور کے لحاظ سے سرفہرست ماڈلز
پہلا ماڈل منتخب کریں، پھر دوسرا ماڈل کلک کریں تاکہ سائیڈ بائی سائیڈ صفحہ کھلے۔
زمرہ وار تفصیل
| زمرہ | اوسط اسکور | تسلسل | درست ٹیسٹس |
|---|---|---|---|
| Anti-AI Tricks | 10.00 | 10.00 | 3/3 |
| Data parsing and extraction | 5.50 | 5.87 | 1/2 |
| Domain specific | 1.00 | 4.42 | 0/3 |
| Instructions following | 7.50 | 9.91 | 1/2 |
| Puzzle Solving | 4.00 | 7.21 | 1/3 |
| Tool Calling | 10.00 | 10.00 | 1/1 |