AI BENCHY तुलना

OpenAI: GPT-5.5 vs Qwen: Qwen3.5-Flash

सारांश

GPT-5.5 vs Qwen3.5-Flash benchmark तुलना: GPT-5.5 average score में आगे है: 9.3 vs 6.8. Qwen3.5-Flash की benchmark लागत कम है: $0.080 vs $0.907. GPT-5.5 तेज है: 9.76s vs 63.29s, pass rates 85.7% vs 71.4%.

अनुशंसित मॉडल: GPT-5.5 - It has the best score here (9.3), while responding about 6.5x faster than Qwen3.5-Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24	Qwen3.5-Flash Qwen3.5-Flash medium रिलीज़: 2026-02-24

मेट्रिक	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24	Qwen3.5-Flash Qwen3.5-Flash medium रिलीज़: 2026-02-24
स्कोर	9.3	6.8
रैंक	#4	#70
विश्वसनीयता	10.0	10.0
संगति	10.0	8.1
सही परीक्षण
प्रति प्रयास पास दर	85.7%	71.4%
अस्थिर टेस्ट	0	5
कुल रन	63	63
प्रति परिणाम लागत	5.035	0.871
कुल लागत	$0.907	$0.080
इनपुट कीमत	$5.000 / 1M	$0.065 / 1M
आउटपुट कीमत	$30.000 / 1M	$0.260 / 1M
कुल इनपुट टोकन	34,209	38,926
आउटपुट टोकन	2,046	2,088
रीजनिंग टोकन	22,460	294,598
प्रतिक्रिया समय (औसत)	9.76s	63.29s
प्रतिक्रिया समय (अधिकतम)	56.19s	234.29s
प्रतिक्रिया समय (कुल)	204.92s	1265.85s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

लागत: $0.068
समय: 37.0s
टोकन: 2,339 tok

#70 Qwen3.5-Flash

medium

लागत: $0.002
समय: 25.8s
टोकन: 4,294 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	672	383	32,992

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Qwen3.5-Flash	3.7	7.2	22.2%	1		58.87s	6,685	302	90,081

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	14,934	483	8,270

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	6,061	235	16,237

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	581	58	43,615

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	516	99	38,486

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	699	98	14,139

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Qwen3.5-Flash	8.2	7.2	88.9%	1		27.61s	381	89	12,457

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	8,193	309	1,284

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Qwen3.5-Flash	3.0	10.0	0.0%	0		48.98s	204	32	37,037

त्वरित तुलना

तुलना जोड़ी बदलें

Gemini 3.5 FlashminimalvsQwen3.5-Flashmedium GPT-5.5lowvsQwen3.7 Maxmedium Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.5 FlashnonevsQwen3.5-Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5low Qwen3.5-FlashmediumvsStep 3.7 Flashhigh Gemini 3 Flash PreviewmediumvsGPT-5.5low Qwen3.5-FlashmediumvsGLM 5.2none DeepSeek V4 PrononevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium