AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Google: Gemini 3 Flash Preview

Rezumat

Comparație benchmark Claude Opus 4.7 vs Gemini 3 Flash Preview: Claude Opus 4.7 conduce la scorul mediu cu 7.4 vs 7.4. Gemini 3 Flash Preview are costul de benchmark mai mic, $0.111 vs $0.505. Claude Opus 4.7 este mai rapid cu 3.02s vs 5.76s, cu rate de reușită de 76.2% vs 79.4%.

Model recomandat: Gemini 3 Flash Preview - Scorul rămâne aproape de cel mai bun scor de aici (7.4 vs 7.4) și costă de aproximativ 4.6x mai puțin decât Claude Opus 4.7.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-18

Metrică	Claude Opus 4.7 Claude Opus 4.7 none Lansare: 2026-04-16	Gemini 3 Flash Preview Gemini 3 Flash Preview low Lansare: 2025-12-17

Metrică	Claude Opus 4.7 Claude Opus 4.7 none Lansare: 2026-04-16	Gemini 3 Flash Preview Gemini 3 Flash Preview low Lansare: 2025-12-17
Scor	7.4	7.4
Rang	#49	#52
Fiabilitate	10.0	10.0
Consistență	9.0	9.2
Teste corecte
Rată de trecere pe încercare	76.2%	79.4%
Teste instabile	0	2
Rulări totale	57	63
Cost per rezultat	3.154	0.689
Cost total	$0.505	$0.111
Preț de intrare	$5.000 / 1M	$0.500 / 1M
Preț de ieșire	$25.000 / 1M	$3.000 / 1M
Total tokenuri de intrare	69,576	36,769
Tokenuri de ieșire	6,265	2,076
Tokenuri de raționament	0	28,518
Timp de răspuns (mediu)	3.02s	5.76s
Timp de răspuns (maxim)	18.27s	14.72s
Timp de răspuns (total)	57.44s	120.93s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 Claude Opus 4.7

none

Cost: $0.051
Timp: 24.2s
Tokenuri: 2,181 tok

#52 Gemini 3 Flash Preview

low

Cost: $0.007
Timp: 12.1s
Tokenuri: 2,289 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	894	522	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.48s	500	281	3,082

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	3.3	3.3	33.3%	0		2.84s	1,176	494	0
Gemini 3 Flash Preview	5.8	7.2	44.4%	1		6.00s	8,122	456	7,421

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	37,740	3,504	0
Gemini 3 Flash Preview	3.0	10.0	0.0%	0		3.27s	12,860	326	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	10,533	324	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		9.40s	7,261	279	3,656

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	1,020	78	0
Gemini 3 Flash Preview	5.3	7.2	44.4%	1		8.05s	645	12	6,410

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	723	257	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.68s	492	120	981

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	939	114	0
Gemini 3 Flash Preview	9.9	10.0	100.0%	0		7.02s	621	71	2,752

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		2.46s	939	597	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		5.77s	562	288	3,168

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	15,339	372	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		4.99s	5,550	234	415

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	3.0	10.0	0.0%	0		1.46s	273	3	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		2.75s	156	9	633

Comparație rapidă

Schimbă perechea de comparație