AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: gpt-oss-120b

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-11

Metrică	Mercury 2 Mercury 2 medium Lansare: 2026-02-24	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit

Metrică	Mercury 2 Mercury 2 medium Lansare: 2026-02-24	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit
Scor	6.5	5.2
Rang	#51	#79
Consistență	8.6	7.9
Teste corecte
Rată de trecere pe încercare	53.7%	38.9%
Teste instabile	3	5
Rulări totale	54	54
Cost per rezultat	0.580	0.221
Cost total	$0.047	$0.009
Preț de intrare	$0.250 / 1M	$0.039 / 1M
Preț de ieșire	$0.750 / 1M	$0.190 / 1M
Tokenuri de ieșire	3,972	44,652
Tokenuri de raționament	48,333	0
Timp de răspuns (mediu)	2.21s	11.96s
Timp de răspuns (maxim)	14.63s	68.97s
Timp de răspuns (total)	37.51s	179.34s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
gpt-oss-120b	6.6	8.0	58.3%	1		6.03s	4,867	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		1.53s	249	2,213
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
gpt-oss-120b	4.6	10.0	0.0%	0		2.83s	586	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
gpt-oss-120b	8.4	6.9	83.3%	1		5.10s	1,982	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.9	7.5	22.2%	1		934ms	354	2,758
gpt-oss-120b	4.5	4.8	44.5%	2		6.86s	3,904	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

Comparație rapidă

Schimbă perechea de comparație

Mercury 2mediumvsMiMo-V2-Omninone MiniMax M2.7mediumvsgpt-oss-120bnoneDisponibil gratuit Mercury 2mediumvsGLM 5none Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsGLM 5V Turbonone Mercury 2mediumvsQwen3.5-Flashnone Gemma 4 26B A4BnoneDisponibil gratuitvsMercury 2medium Seed-2.0-LitenonevsMercury 2medium Gemini 2.5 FlashnonevsMercury 2medium Mercury 2mediumvsQwen3.5-35B-A3Bnone DeepSeek V3.2nonevsMercury 2medium Gemma 4 31BnoneDisponibil gratuitvsMercury 2medium