AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite

Rezumat

Comparație benchmark Claude Opus 4.8 vs Gemini 3.1 Flash Lite: Scorul mediu este practic egal la 7.7 vs 7.8. Gemini 3.1 Flash Lite are costul de benchmark mai mic, $0.071 vs $1.270. Gemini 3.1 Flash Lite este mai rapid cu 3.23s vs 10.83s, cu rate de reușită de 79.4% vs 65.1%.

Model recomandat: Gemini 3.1 Flash Lite - Are cel mai bun scor aici (7.8) și costă de aproximativ 18.1x mai puțin decât Claude Opus 4.8.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-30

Metrică	Claude Opus 4.8 Claude Opus 4.8 low Lansare: 2026-05-28	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Lansare: 2026-05-08

Metrică	Claude Opus 4.8 Claude Opus 4.8 low Lansare: 2026-05-28	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Lansare: 2026-05-08
Scor	7.7	7.8
Rang	#38	#35
Fiabilitate	10.0	10.0
Consistență	8.8	9.2
Teste corecte
Rată de trecere pe încercare	79.4%	65.1%
Teste instabile	3	2
Rulări totale	63	63
Cost per rezultat	8.466	0.539
Cost total	$1.270	$0.071
Preț de intrare	$5.000 / 1M	$0.250 / 1M
Preț de ieșire	$25.000 / 1M	$1.500 / 1M
Total tokenuri de intrare	60,946	36,808
Tokenuri de ieșire	31,771	2,254
Tokenuri de raționament	6,831	38,300
Timp de răspuns (mediu)	10.83s	3.23s
Timp de răspuns (maxim)	127.97s	10.87s
Timp de răspuns (total)	227.39s	67.80s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

Cost: $0.031
Timp: 14.1s
Tokenuri: 1,345 tok

#35 Gemini 3.1 Flash Lite

medium

Cost: $0.003
Timp: 5.3s
Tokenuri: 1,754 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
Gemini 3.1 Flash Lite	9.1	10.0	75.0%	0		2.39s	502	604	4,201

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
Gemini 3.1 Flash Lite	5.5	10.0	33.3%	0		3.81s	8,134	459	8,978

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		10.87s	12,873	327	7,401

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	7,362	279	2,845

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		3.16s	643	15	5,165

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	488	84	1,142

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
Gemini 3.1 Flash Lite	9.9	10.0	100.0%	0		2.59s	623	75	3,320

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
Gemini 3.1 Flash Lite	7.6	7.2	77.8%	1		1.95s	568	165	2,450

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.55s	5,457	234	921

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		3.08s	158	12	1,877

Comparație rapidă

Schimbă perechea de comparație

Claude Opus 4.8lowvsQwen3.5-122B-A10Bmedium Claude Opus 4.8lowvsKimi K2.6mediumDisponibil gratuit Claude Opus 4.8lowvsGrok 4.3medium Claude Opus 4.8lowvsQwen3.5 Plus 2026-04-20medium Claude Opus 4.8lowvsGemini 3.1 Flash Lite Previewmedium Gemini 3.1 Flash LitemediumvsStep 3.7 Flashlow Claude Opus 4.8lowvsQwen3.6 Plusmedium Claude Opus 4.8lowvsMiniMax M3medium Claude Opus 4.8lowvsDeepSeek V4 Prohigh Claude Opus 4.8lowvsGrok Build 0.1medium Claude Opus 4.8lowvsQwen3.5-27Bmedium DeepSeek V4 ProhighvsGemini 3.1 Flash Litemedium