AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-28

Metrică	Claude Opus 4.8 Claude Opus 4.8 medium Lansare: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Lansare: 2026-03-03

Metrică	Claude Opus 4.8 Claude Opus 4.8 medium Lansare: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Lansare: 2026-03-03
Scor	8.7	7.6
Rang	#12	#47
Fiabilitate	10.0	10.0
Consistență	9.6	10.0
Teste corecte
Rată de trecere pe încercare	83.3%	65.0%
Teste instabile	1	0
Rulări totale	60	60
Cost per rezultat	6.285	0.186
Cost total	$1.006	$0.025
Preț de intrare	$5.000 / 1M	$0.250 / 1M
Preț de ieșire	$25.000 / 1M	$1.500 / 1M
Tokenuri de ieșire	23,201	2,280
Tokenuri de raționament	5,901	8,829
Timp de răspuns (mediu)	9.34s	2.85s
Timp de răspuns (maxim)	38.03s	11.91s
Timp de răspuns (total)	186.84s	57.08s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	1,179	478
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	462	1,638

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		14.97s	6,651	1,381
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.56s	654	723

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	9.8	10.0	100.0%	0		38.03s	5,260	1,588
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	225	762

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	481	312
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	291	696

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	5.3	10.0	33.3%	0		14.15s	7,477	900
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	18	1,212

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	237	0
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	69	384

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	373	320
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	791	483
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.69s	243	1,248

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	301	225
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	451	214
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		1.35s	9	420

Comparație rapidă

Schimbă perechea de comparație

Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium DeepSeek V4 FlashhighDisponibil gratuitvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Promedium Claude Opus 4.8mediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium