AI BENCHY तुलना

तुलना किए गए मॉडल

सारांश

Claude Opus 4.6 vs Claude Sonnet 4.6 vs GPT-5.3-Codex vs Gemini 3.1 Pro Preview benchmark तुलनाGemini 3.1 Pro Preview स्कोर में 9.2 के साथ आगे है। Claude Opus 4.6 विश्वसनीयता में 10.0 के साथ आगे है। GPT-5.3-Codex का कुल लागत सबसे कम है: $0.740. GPT-5.3-Codex 16.22s पर सबसे तेज है।

अनुशंसित मॉडल: GPT-5.3-Codex - Its score stays close to the best score here (8.9 vs 9.2), while costing about 2.0x less than इस तुलना के बाकी मॉडल.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	Claude Opus 4.6 Claude Opus 4.6 medium रिलीज़: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium रिलीज़: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium रिलीज़: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium रिलीज़: 2026-02-19

मेट्रिक	Claude Opus 4.6 Claude Opus 4.6 medium रिलीज़: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium रिलीज़: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium रिलीज़: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium रिलीज़: 2026-02-19
स्कोर	7.7	7.8	8.9	9.2
रैंक	#38	#31	#10	#7
विश्वसनीयता	10.0	10.0	10.0	10.0
संगति	8.8	9.1	8.5	10.0
सही परीक्षण
प्रति प्रयास पास दर	61.9%	65.1%	82.5%	90.5%
अस्थिर टेस्ट	3	2	4	0
कुल रन	63	63	63	63
प्रति परिणाम लागत	17.103	10.904	4.932	5.546
कुल लागत	$2.053	$1.418	$0.740	$1.054
इनपुट कीमत	$5.000 / 1M	$3.000 / 1M	$1.750 / 1M	$2.000 / 1M
आउटपुट कीमत	$25.000 / 1M	$15.000 / 1M	$14.000 / 1M	$12.000 / 1M
कुल इनपुट टोकन	53,227	49,112	34,299	41,617
आउटपुट टोकन	47,446	54,703	2,357	1,977
रीजनिंग टोकन	24,000	29,970	46,189	78,896
प्रतिक्रिया समय (औसत)	25.89s	17.06s	16.22s	20.14s
प्रतिक्रिया समय (अधिकतम)	83.40s	46.35s	100.93s	88.68s
प्रतिक्रिया समय (कुल)	362.49s	221.83s	340.67s	281.92s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.6

medium

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

#31 Claude Sonnet 4.6

medium

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

#10 GPT-5.3-Codex

medium

लागत: $0.049
समय: 54.9s
टोकन: 3,580 tok

#7 Gemini 3.1 Pro Preview

medium

लागत: $0.115
समय: 87.2s
टोकन: 9,629 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	6.4	5.8	66.7%	2	7.45s	840	986	1,071
Claude Sonnet 4.6	6.5	10.0	50.0%	0	2.98s	789	1,046	1,093
GPT-5.3-Codex	8.7	7.9	91.7%	1	4.16s	606	240	1,722
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0	7.90s	498	112	3,218

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	5.7	7.1	44.4%	1	30.10s	8,522	13,057	4,121
Claude Sonnet 4.6	5.7	6.6	44.4%	1	33.29s	6,995	16,089	3,686
GPT-5.3-Codex	10.0	10.0	100.0%	0	19.50s	7,302	535	10,890
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0	40.17s	8,124	435	41,247

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	76.66s	20,685	8,178	5,194
Claude Sonnet 4.6	10.0	10.0	100.0%	46.35s	18,351	5,871	3,962
GPT-5.3-Codex	10.0	10.0	100.0%	19.56s	11,019	364	2,731
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	40.61s	17,240	432	9,281

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	7.37s	8,676	691	757
Claude Sonnet 4.6	10.0	10.0	100.0%	13.90s	8,676	649	742
GPT-5.3-Codex	10.0	10.0	100.0%	3.07s	7,140	234	728
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	7.72s	7,265	279	3,904

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	3.0	10.0	0.0%	0	83.40s	674	14,642	8,687
Claude Sonnet 4.6	2.9	7.2	11.1%	1	0ms	471	25,790	16,919
GPT-5.3-Codex	5.9	7.2	55.6%	1	64.31s	813	64	25,308
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0	32.73s	635	18	12,424

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	5.04s	564	188	292
Claude Sonnet 4.6	10.0	10.0	100.0%	4.94s	564	256	433
GPT-5.3-Codex	4.6	10.0	0.0%	4.87s	477	187	331
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	11.77s	490	108	1,179

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	2.43s	792	266	467
Claude Sonnet 4.6	10.0	10.0	100.0%	2.61s	792	318	552
GPT-5.3-Codex	10.0	10.0	100.0%	3.04s	660	93	693
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	9.56s	621	72	2,236

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	7.7	10.0	66.7%	0	4.71s	816	532	630
Claude Sonnet 4.6	10.0	10.0	100.0%	0	5.31s	816	592	646
GPT-5.3-Codex	9.0	7.9	88.9%	1	5.05s	642	356	1,593
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0	6.90s	570	235	3,128

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	9.73s	11,454	861	329
Claude Sonnet 4.6	10.0	10.0	100.0%	7.48s	11,454	655	351
GPT-5.3-Codex	10.0	10.0	100.0%	6.37s	5,445	254	492
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	23.15s	6,018	274	982

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	3.0	10.0	0.0%	0	63.24s	204	8,045	2,452
Claude Sonnet 4.6	3.0	10.0	0.0%	0	30.09s	204	3,437	1,586
GPT-5.3-Codex	2.8	1.6	33.3%	1	14.43s	195	30	1,701
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0	6.27s	156	12	1,297

त्वरित तुलना

तुलना जोड़ी बदलें

Claude Opus 4.6mediumvsStep 3.7 Flashlow Claude Opus 4.6mediumvsDeepSeek V4 Prohigh Claude Sonnet 4.6mediumvsStep 3.7 Flashlow Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsDeepSeek V4 Prohigh Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6mediumvsDeepSeek V4 Flashhigh Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Opus 4.6mediumvsDeepSeek V4 Pronone