AI BENCHY Compare

Modele comparate

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-12

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lansare: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium Lansare: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Lansare: 2026-02-19

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lansare: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium Lansare: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Lansare: 2026-02-19
Rang	#28	#12	#4	#2
Scor mediu	6.6	7.7	8.4	9.4
Consistență	9.0	9.5	9.1	10.0
Cost per rezultat	13.118	8.525	4.485	3.417
Cost total	$1.312	$1.023	$0.539	$0.513
Teste corecte
Rată de trecere pe încercare	66.7%	77.1%	83.3%	93.8%
Teste instabile	2	1	2	0
Rulări totale	48	48	48	48
Tokenuri de ieșire	26,254	35,159	1,764	1,521
Tokenuri de raționament	17,363	24,687	33,348	35,656
Timp de răspuns (mediu)	22.86s	11.23s	16.59s	16.60s
Timp de răspuns (maxim)	83.40s	46.35s	100.93s	40.61s
Timp de răspuns (total)	205.71s	89.84s	265.39s	149.36s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor mediu vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Claude Sonnet 4.6	7.0	10.0	66.7%	0		4.95s	1,031	1,093
GPT-5.3-Codex	10.0	10.0	100.0%	0		4.69s	216	1,421
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.52s	106	2,533

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731
Gemini 3.1 Pro Preview	9.0	10.0	100.0%	0		40.61s	432	9,281

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Claude Sonnet 4.6	9.9	10.0	100.0%	0		13.90s	649	742
GPT-5.3-Codex	9.9	10.0	100.0%	0		3.07s	234	728
Gemini 3.1 Pro Preview	9.9	10.0	100.0%	0		7.72s	279	3,904

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Claude Sonnet 4.6	10.0	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.3-Codex	4.0	7.2	55.6%	1		64.31s	64	25,308
Gemini 3.1 Pro Preview	7.0	10.0	66.7%	0		32.73s	18	12,424

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.3-Codex	4.0	10.0	0.0%	0		4.87s	187	331
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GPT-5.3-Codex	9.3	7.9	88.9%	1		5.12s	352	1,644
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982

Comparație rapidă

Schimbă perechea de comparație

Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone