नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite

सारांश

Claude Opus 4.8 vs Gemini 3.1 Flash Lite benchmark तुलना: average score लगभग बराबर है: 7.7 vs 7.8. Gemini 3.1 Flash Lite की benchmark लागत कम है: $0.071 vs $1.270. Gemini 3.1 Flash Lite तेज है: 3.23s vs 10.83s, pass rates 79.4% vs 65.1%.

अनुशंसित मॉडल: Gemini 3.1 Flash Lite - It has the best score here (7.8), while costing about 18.1x less than Claude Opus 4.8.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-30

मेट्रिक Claude Opus 4.8 Claude Opus 4.8 low रिलीज़: 2026-05-28 Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium रिलीज़: 2026-05-08
स्कोर 7.7 7.8
रैंक #38 #35
विश्वसनीयता 10.0 10.0
संगति 8.8 9.2
सही परीक्षण
प्रति प्रयास पास दर 79.4% 65.1%
अस्थिर टेस्ट 3 2
कुल रन 63 63
प्रति परिणाम लागत 8.466 0.539
कुल लागत $1.270 $0.071
इनपुट कीमत $5.000 / 1M $0.250 / 1M
आउटपुट कीमत $25.000 / 1M $1.500 / 1M
कुल इनपुट टोकन 60,946 36,808
आउटपुट टोकन 31,771 2,254
रीजनिंग टोकन 6,831 38,300
प्रतिक्रिया समय (औसत) 10.83s 3.23s
प्रतिक्रिया समय (अधिकतम) 127.97s 10.87s
प्रतिक्रिया समय (कुल) 227.39s 67.80s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low
लागत
$0.031
समय
14.1s
टोकन
1,345 tok

#35 Gemini 3.1 Flash Lite

medium
लागत
$0.003
समय
5.3s
टोकन
1,754 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 3.30s 834 793 371
Gemini 3.1 Flash Lite 9.1 10.0 75.0% 0 2.39s 502 604 4,201
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 6.6 4.6 77.8% 2 7.58s 10,590 3,637 809
Gemini 3.1 Flash Lite 5.5 10.0 33.3% 0 3.81s 8,134 459 8,978
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 9.8 10.0 100.0% 0 20.84s 23,500 2,216 1,081
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 10.87s 12,873 327 7,401
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 6.3 5.8 66.7% 1 2.27s 10,503 310 0
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 2.60s 7,362 279 2,845
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 5.3 10.0 33.3% 0 45.53s 975 23,311 3,908
Gemini 3.1 Flash Lite 2.9 7.2 11.1% 1 3.16s 643 15 5,165
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 2.55s 708 231 0
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 2.60s 488 84 1,142
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 9.8 10.0 100.0% 0 2.78s 909 111 221
Gemini 3.1 Flash Lite 9.9 10.0 100.0% 0 2.59s 623 75 3,320
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 3.01s 894 592 184
Gemini 3.1 Flash Lite 7.6 7.2 77.8% 1 1.95s 568 165 2,450
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 6.85s 11,775 370 35
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 4.55s 5,457 234 921
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 3.0 10.0 0.0% 0 5.48s 258 200 222
Gemini 3.1 Flash Lite 3.0 10.0 0.0% 0 3.08s 158 12 1,877

त्वरित तुलना

तुलना जोड़ी बदलें