नेविगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.4 Mini

सारांश

Gemini 2.5 Flash vs GPT-5.4 Mini benchmark तुलना: Gemini 2.5 Flash average score में आगे है: 8.2 vs 8.0. Gemini 2.5 Flash की benchmark लागत कम है: $0.379 vs $0.526. Gemini 2.5 Flash तेज है: 15.49s vs 22.34s, pass rates 69.8% vs 73.0%.

अनुशंसित मॉडल: Gemini 2.5 Flash - It has the strongest score in this comparison (8.2) and the best overall balance of cost and response time across all 2 models.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-12

मेट्रिक Gemini 2.5 Flash Gemini 2.5 Flash medium रिलीज़: 2025-06-17 GPT-5.4 Mini GPT-5.4 Mini medium रिलीज़: 2026-03-17
स्कोर 8.2 8.0
रैंक #27 #30
विश्वसनीयता 10.0 10.0
संगति 9.6 8.0
सही परीक्षण
प्रति प्रयास पास दर 69.8% 73.0%
अस्थिर टेस्ट 1 5
कुल रन 63 63
प्रति परिणाम लागत 2.701 4.381
कुल लागत $0.379 $0.526
इनपुट कीमत $0.300 / 1M $0.750 / 1M
आउटपुट कीमत $2.500 / 1M $4.500 / 1M
कुल इनपुट टोकन 34,476 34,116
आउटपुट टोकन 1,930 2,181
रीजनिंग टोकन 145,145 108,937
प्रतिक्रिया समय (औसत) 15.49s 22.34s
प्रतिक्रिया समय (अधिकतम) 95.48s 138.75s
प्रतिक्रिया समय (कुल) 325.39s 469.20s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#27 Gemini 2.5 Flash

medium
Invalid SVG
Cost
$0.000
Time
274.0s
Tokens
0 tok

#30 GPT-5.4 Mini

medium
Cost
$0.056
Time
95.5s
Tokens
12,464 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 8.4 10.0 75.0% 0 6.30s 492 255 10,233
GPT-5.4 Mini 8.6 7.9 91.7% 1 4.05s 606 296 2,876
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 7.8 10.0 66.7% 0 41.01s 6,669 543 32,303
GPT-5.4 Mini 8.4 7.4 88.9% 1 57.87s 7,305 467 40,902
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 10.0 10.0 100.0% 0 28.44s 12,522 303 11,922
GPT-5.4 Mini 10.0 10.0 100.0% 0 17.81s 11,019 317 4,317
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 10.0 10.0 100.0% 0 4.06s 7,257 279 2,325
GPT-5.4 Mini 10.0 10.0 100.0% 0 2.43s 7,140 234 650
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 5.9 7.2 55.6% 1 37.34s 633 18 80,702
GPT-5.4 Mini 4.1 4.4 44.5% 2 65.31s 619 60 43,286
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 4.8 10.0 0.0% 0 4.86s 486 92 1,899
GPT-5.4 Mini 4.5 10.0 0.0% 0 3.72s 477 150 510
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 9.8 10.0 100.0% 0 2.62s 615 69 1,203
GPT-5.4 Mini 9.8 10.0 100.0% 0 2.13s 660 96 1,185
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 7.7 10.0 66.7% 0 3.18s 558 126 2,499
GPT-5.4 Mini 7.8 10.0 66.7% 0 4.37s 642 278 2,443
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 10.0 10.0 100.0% 0 6.20s 5,088 234 1,140
GPT-5.4 Mini 4.7 1.6 66.7% 1 9.62s 5,453 251 2,594
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemini 2.5 Flash 3.0 10.0 0.0% 0 2.76s 156 11 919
GPT-5.4 Mini 3.0 10.0 0.0% 0 30.10s 195 32 10,174

त्वरित तुलना

तुलना जोड़ी बदलें