AI BENCHY तुलना

OpenAI: GPT-5.5 vs Qwen: Qwen3.5-9B

सारांश

GPT-5.5 vs Qwen3.5-9B benchmark तुलना: GPT-5.5 average score में आगे है: 9.3 vs 3.8. Qwen3.5-9B की benchmark लागत कम है: $0.036 vs $0.907. GPT-5.5 तेज है: 9.76s vs 82.24s, pass rates 85.7% vs 27.0%.

अनुशंसित मॉडल: GPT-5.5 - It has the best score here (9.3), while responding about 8.4x faster than Qwen3.5-9B.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24	Qwen3.5-9B Qwen3.5-9B medium रिलीज़: 2026-03-02

मेट्रिक	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24	Qwen3.5-9B Qwen3.5-9B medium रिलीज़: 2026-03-02
स्कोर	9.3	3.8
रैंक	#4	#165
विश्वसनीयता	10.0	6.7
संगति	10.0	8.0
सही परीक्षण
प्रति प्रयास पास दर	85.7%	27.0%
अस्थिर टेस्ट	0	5
कुल रन	63	63
प्रति परिणाम लागत	5.035	1.187
कुल लागत	$0.907	$0.036
इनपुट कीमत	$5.000 / 1M	$0.100 / 1M
आउटपुट कीमत	$30.000 / 1M	$0.150 / 1M
कुल इनपुट टोकन	34,209	17,070
आउटपुट टोकन	2,046	29,045
रीजनिंग टोकन	22,460	209,516
प्रतिक्रिया समय (औसत)	9.76s	82.24s
प्रतिक्रिया समय (अधिकतम)	56.19s	226.38s
प्रतिक्रिया समय (कुल)	204.92s	1315.88s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

लागत: $0.068
समय: 37.0s
टोकन: 2,339 tok

#165 Qwen3.5-9B

medium

लागत: $0.001
समय: 35.9s
टोकन: 3,030 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	369	2,621	12,411

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Qwen3.5-9B	2.9	10.0	0.0%	0		100.88s	2,396	7,890	41,129

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	4,722	1,383	32,113

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	295	11,549	48,475

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	180	0	30,695

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Qwen3.5-9B	6.5	10.0	50.0%	0		5.75s	381	491	1,824

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Qwen3.5-9B	3.0	10.0	0.0%	0		32.27s	376	1,593	12,026

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	8,283	444	1,149

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Qwen3.5-9B	3.0	10.0	0.0%	0		177.02s	68	3,074	29,694

त्वरित तुलना

तुलना जोड़ी बदलें

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.5 FlashmediumvsGPT-5.5low gpt-oss-120bnoneनिःशुल्क उपलब्धvsQwen3.5-9Bmedium Granite 4.1 8BnonevsQwen3.5-9Bmedium Gemini 3 Flash PreviewmediumvsGPT-5.5low GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low Qwen3.5-9BmediumvsGrok 4.20none Claude Opus 4.7mediumvsGPT-5.5low