Bandingkan Grafik Metodologi

Bahasa:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 2.5 Flash vs StepFun: Step 3.5 Flash

Bandingkan:

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-06

Metrik	Google: Gemini 2.5 Flash medium Rilis: 2025-06-17	StepFun: Step 3.5 Flash medium Rilis: 2026-02-01 Tersedia gratis
Peringkat	#16	#13
Skor Rata-rata	7.4	7.4
Konsistensi	9.5	9.1
Biaya per hasil	2.619	0.000
Total Biaya	$0.288	$0.000
Tes benar
Tingkat lulus per percobaan	72.9%	68.8%
Tes tidak stabil	1	2
Total Run	48 (16 x 3)	48 (16 x 3)
Token output	1,370	71,452
Token penalaran	110,522	155,147
Waktu respons (rata-rata)	12.35s	29.10s
Waktu respons (maks)	95.48s	170.45s
Waktu respons (total)	197.62s	290.96s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor Rata-rata vs Waktu respons (rata-rata)

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Google: Gemini 2.5 Flash	7.3	10.0	66.7%	0		6.98s	249	8,832
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Google: Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	303	11,922
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Google: Gemini 2.5 Flash	9.9	10.0	100.0%	0		4.06s	279	2,325
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Google: Gemini 2.5 Flash	4.0	7.2	55.6%	1		37.34s	18	80,702
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Google: Gemini 2.5 Flash	4.0	10.0	0.0%	0		4.86s	92	1,899
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Google: Gemini 2.5 Flash	9.5	10.0	100.0%	0		2.62s	69	1,203
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Google: Gemini 2.5 Flash	7.0	10.0	66.7%	0		3.94s	126	2,499
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Google: Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	234	1,140
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsStep 3.5 FlashmediumTersedia gratis Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumTersedia gratis GPT-5.3 ChatnonevsStep 3.5 FlashmediumTersedia gratis Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumTersedia gratis Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumTersedia gratis Claude Sonnet 4.6nonevsGemini 2.5 Flashmedium Claude Sonnet 4.6nonevsStep 3.5 FlashmediumTersedia gratis Gemini 3.1 Flash Lite PreviewhighvsStep 3.5 FlashmediumTersedia gratis Gemini 3 Flash PreviewlowvsStep 3.5 FlashmediumTersedia gratis Gemini 2.5 FlashmediumvsQwen3.5 Plus 2026-02-15none