AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.5-27B

सारांश

GPT-5.5 vs Qwen3.5-27B benchmark तुलना: GPT-5.5 average score मध्ये पुढे आहे: 9.3 vs 7.9. Qwen3.5-27B चा benchmark खर्च कमी आहे: $0.536 vs $0.907. GPT-5.5 वेगवान आहे: 9.76s vs 68.39s, pass rates 85.7% vs 73.0%.

शिफारस केलेले मॉडेल: GPT-5.5 - It has the best score here (9.3), while responding about 7.0x faster than Qwen3.5-27B.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-18

मेट्रिक	GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24	Qwen3.5-27B Qwen3.5-27B medium प्रकाशन: 2026-02-24

मेट्रिक	GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24	Qwen3.5-27B Qwen3.5-27B medium प्रकाशन: 2026-02-24
स्कोअर	9.3	7.9
क्रमांक	#4	#29
विश्वसनीयता	10.0	10.0
सुसंगतता	10.0	8.5
बरोबर चाचण्या
प्रति प्रयत्न पास दर	85.7%	73.0%
अस्थिर चाचण्या	0	4
एकूण रन	63	63
प्रति निकाल खर्च	5.035	4.901
एकूण खर्च	$0.907	$0.536
इनपुट किंमत	$5.000 / 1M	$0.195 / 1M
आउटपुट किंमत	$30.000 / 1M	$1.560 / 1M
एकूण इनपुट टोकन्स	34,209	42,164
आउटपुट टोकन्स	2,046	8,534
रिझनिंग टोकन्स	22,460	329,289
प्रतिसाद वेळ (सरासरी)	9.76s	68.39s
प्रतिसाद वेळ (कमाल)	56.19s	234.36s
प्रतिसाद वेळ (एकूण)	204.92s	1436.24s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

खर्च: $0.068
वेळ: 37.0s
टोकन्स: 2,339 tok

#29 Qwen3.5-27B

medium

खर्च: $0.008
वेळ: 62.0s
टोकन्स: 3,099 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	672	569	31,505

कोडिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Qwen3.5-27B	6.2	7.1	55.6%	1		160.69s	7,895	6,381	89,388

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	14,946	483	9,991

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	7,782	270	16,150

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	553	43	52,368

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	524	70	23,147

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	699	97	11,638

कोडी सोडवणे	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	696	242	70,096

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	8,193	348	1,323

सामान्य ज्ञान	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	204	31	23,683

झटपट तुलना

तुलना जोडी बदला

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Qwen3.5-27BmediumvsStep 3.7 Flashlow Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGPT-5.5low DeepSeek V4 ProhighvsQwen3.5-27Bmedium DeepSeek V4 FlashhighvsQwen3.5-27Bmedium GPT-5.3 ChatnonevsQwen3.5-27Bmedium GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low