नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.5 Flash

सारांश

Claude Opus 4.8 vs Gemini 3.5 Flash benchmark तुलना: Claude Opus 4.8 average score में आगे है: 7.2 vs 7.0. Claude Opus 4.8 की benchmark लागत कम है: $0.539 vs $1.079. Claude Opus 4.8 तेज है: 3.47s vs 9.93s, pass rates 61.9% vs 77.8%.

अनुशंसित मॉडल: Claude Opus 4.8 - It has the best score here (7.2), while costing about 2.0x less than Gemini 3.5 Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28 Gemini 3.5 Flash Gemini 3.5 Flash none रिलीज़: 2026-05-19
स्कोर 7.2 7.0
रैंक #57 #66
विश्वसनीयता 10.0 10.0
संगति 9.2 8.9
सही परीक्षण
प्रति प्रयास पास दर 61.9% 77.8%
अस्थिर टेस्ट 2 3
कुल रन 63 63
प्रति परिणाम लागत 4.485 7.190
कुल लागत $0.539 $1.079
इनपुट कीमत $5.000 / 1M $1.500 / 1M
आउटपुट कीमत $25.000 / 1M $9.000 / 1M
कुल इनपुट टोकन 67,104 13,843
आउटपुट टोकन 8,107 117,518
रीजनिंग टोकन 0 0
प्रतिक्रिया समय (औसत) 3.47s 9.93s
प्रतिक्रिया समय (अधिकतम) 17.73s 64.36s
प्रतिक्रिया समय (कुल) 72.90s 178.68s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 Claude Opus 4.8

none
लागत
$0.053
समय
22.0s
टोकन
2,253 tok

#66 Gemini 3.5 Flash

none
लागत
$0.225
समय
125.5s
टोकन
25,004 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 834 1,472 0
Gemini 3.5 Flash 10.0 10.0 100.0% 0 2.53s 492 5,101 0
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 5.5 10.0 33.3% 0 3.29s 10,590 1,332 0
Gemini 3.5 Flash 8.8 7.8 88.9% 1 34.69s 8,122 75,927 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 29,658 3,259 0
Gemini 3.5 Flash 3.0 10.0 0.0% 0 0ms 0 0 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 10,503 308 0
Gemini 3.5 Flash 6.5 10.0 50.0% 0 8.10s 2,781 5,895 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 975 61 0
Gemini 3.5 Flash 7.6 7.2 77.8% 1 10.64s 633 17,910 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 708 230 0
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.46s 486 1,620 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 909 95 0
Gemini 3.5 Flash 9.8 10.0 100.0% 0 3.38s 615 3,928 0
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 894 783 0
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.13s 558 4,640 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 11,775 355 0
Gemini 3.5 Flash 3.0 10.0 0.0% 0 0ms 0 0 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 258 212 0
Gemini 3.5 Flash 2.8 1.6 33.3% 1 4.87s 156 2,497 0

त्वरित तुलना

तुलना जोड़ी बदलें