AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Google: Gemini 3 Flash Preview

Ringkasan

Gemini 3 Flash Preview (medium) unggul dalam skor rata-rata dengan 9.6 vs 7.4. Claude Opus 4.7 memiliki biaya benchmark lebih rendah di $0.505 vs $0.667. Claude Opus 4.7 lebih cepat di 3.02s vs 18.64s, dengan tingkat keberhasilan 76.2% vs 98.4%.

Model yang direkomendasikanGemini 3 Flash Preview (medium)It has the strongest score in this comparison (9.6) and the best overall balance of cost and response time across all 2 models.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-14

Metrik	Claude Opus 4.7 Claude Opus 4.7 none Rilis: 2026-04-16	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Rilis: 2025-12-17

Metrik	Claude Opus 4.7 Claude Opus 4.7 none Rilis: 2026-04-16	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Rilis: 2025-12-17
Skor	7.4	9.6
Peringkat	#65	#2
Keandalan	10.0	10.0
Konsistensi	9.0	9.7
Tes benar
Tingkat lulus per percobaan	76.2%	98.4%
Tes tidak stabil	0	1
Total Run	57	63
Biaya per hasil	3.154	3.335
Total Biaya	$0.505	$0.667
Harga input	$5.000 / 1M	$0.500 / 1M
Harga output	$25.000 / 1M	$3.000 / 1M
Total token input	69,576	37,017
Token output	6,265	2,006
Token penalaran	0	214,153
Waktu respons (rata-rata)	3.02s	18.64s
Waktu respons (maks)	18.27s	117.26s
Waktu respons (total)	57.44s	391.35s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#65 Claude Opus 4.7

none

Biaya: $0.051
Waktu: 24.2s
Token: 2,181 tok

#2 Gemini 3 Flash Preview

medium

Biaya: $0.010
Waktu: 17.9s
Token: 3,236 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Kategori:

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	894	522	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.88s	494	330	3,216

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	3.3	3.3	33.3%	0		2.84s	1,176	494	0
Gemini 3 Flash Preview	8.6	7.6	88.9%	1		84.40s	8,122	462	161,084

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	37,740	3,504	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		22.42s	12,873	351	10,485

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	10,533	324	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		5.43s	7,548	279	4,893

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	1,020	78	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		15.27s	633	12	21,684

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	723	257	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		5.19s	486	72	1,905

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	939	114	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		4.04s	615	72	2,709

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		2.46s	939	597	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		4.05s	558	183	4,365

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	15,339	372	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		12.60s	5,532	234	1,487

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.7	3.0	10.0	0.0%	0		1.46s	273	3	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		5.50s	156	11	2,325

Perbandingan Cepat

Ganti Pasangan Perbandingan