नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite

सारांश

Claude Opus 4.8 vs Gemini 3.1 Flash Lite benchmark तुलना: Gemini 3.1 Flash Lite average score में आगे है: 7.8 vs 7.2. Gemini 3.1 Flash Lite की benchmark लागत कम है: $0.071 vs $0.539. Gemini 3.1 Flash Lite तेज है: 3.23s vs 3.47s, pass rates 61.9% vs 65.1%.

अनुशंसित मॉडल: Gemini 3.1 Flash Lite - It has the best score here (7.8), while costing about 7.7x less than Claude Opus 4.8.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28 Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium रिलीज़: 2026-05-08
स्कोर 7.2 7.8
रैंक #57 #34
विश्वसनीयता 10.0 10.0
संगति 9.2 9.2
सही परीक्षण
प्रति प्रयास पास दर 61.9% 65.1%
अस्थिर टेस्ट 2 2
कुल रन 63 63
प्रति परिणाम लागत 4.485 0.539
कुल लागत $0.539 $0.071
इनपुट कीमत $5.000 / 1M $0.250 / 1M
आउटपुट कीमत $25.000 / 1M $1.500 / 1M
कुल इनपुट टोकन 67,104 36,808
आउटपुट टोकन 8,107 2,254
रीजनिंग टोकन 0 38,300
प्रतिक्रिया समय (औसत) 3.47s 3.23s
प्रतिक्रिया समय (अधिकतम) 17.73s 10.87s
प्रतिक्रिया समय (कुल) 72.90s 67.80s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 Claude Opus 4.8

none
लागत
$0.053
समय
22.0s
टोकन
2,253 tok

#34 Gemini 3.1 Flash Lite

medium
लागत
$0.003
समय
5.3s
टोकन
1,754 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 834 1,472 0
Gemini 3.1 Flash Lite 9.1 10.0 75.0% 0 2.39s 502 604 4,201
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 5.5 10.0 33.3% 0 3.29s 10,590 1,332 0
Gemini 3.1 Flash Lite 5.5 10.0 33.3% 0 3.81s 8,134 459 8,978
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 29,658 3,259 0
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 10.87s 12,873 327 7,401
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 10,503 308 0
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 2.60s 7,362 279 2,845
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 975 61 0
Gemini 3.1 Flash Lite 2.9 7.2 11.1% 1 3.16s 643 15 5,165
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 708 230 0
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 2.60s 488 84 1,142
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 909 95 0
Gemini 3.1 Flash Lite 9.9 10.0 100.0% 0 2.59s 623 75 3,320
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 894 783 0
Gemini 3.1 Flash Lite 7.6 7.2 77.8% 1 1.95s 568 165 2,450
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 11,775 355 0
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 4.55s 5,457 234 921
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 258 212 0
Gemini 3.1 Flash Lite 3.0 10.0 0.0% 0 3.08s 158 12 1,877

त्वरित तुलना

तुलना जोड़ी बदलें