AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: gpt-oss-120b

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-22

Metrică	Mercury 2 Mercury 2 medium Lansare: 2026-02-24	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit

Metrică	Mercury 2 Mercury 2 medium Lansare: 2026-02-24	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit
Scor	6.3	5.2
Rang	#90	#129
Fiabilitate	10.0	10.0
Consistență	8.4	8.7
Teste corecte
Rată de trecere pe încercare	50.0%	36.8%
Teste instabile	4	3
Rulări totale	60	57
Cost per rezultat	0.687	0.201
Cost total	$0.055	$0.011
Preț de intrare	$0.250 / 1M	$0.000 / 1M
Preț de ieșire	$0.750 / 1M	$0.000 / 1M
Tokenuri de ieșire	4,015	51,505
Tokenuri de raționament	58,382	0
Timp de răspuns (mediu)	2.27s	21.86s
Timp de răspuns (maxim)	14.63s	113.71s
Timp de răspuns (total)	43.15s	349.78s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	8,676	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	7.2	6.5	66.7%	1		2.29s	270	8,514
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	615	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
gpt-oss-120b	9.8	10.0	100.0%	0		5.10s	1,982	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.8	7.3	22.2%	1		934ms	354	2,758
gpt-oss-120b	4.4	4.5	44.5%	2		9.51s	3,781	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.0	10.0	0.0%	0		2.58s	22	3,748
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	3,138	0

Comparație rapidă

Schimbă perechea de comparație

Mercury 2mediumvsGLM 5none Gemma 4 26B A4BnoneDisponibil gratuitvsMercury 2medium Gemini 2.5 FlashnonevsMercury 2medium Mercury 2mediumvsMiMo-V2-Omninone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.7mediumvsgpt-oss-120bnoneDisponibil gratuit gpt-oss-120bnoneDisponibil gratuitvsElephant Alphamedium Mistral Small 4mediumvsgpt-oss-120bnoneDisponibil gratuit DeepSeek V4 PrononevsMercury 2medium MiniMax M2.5mediumDisponibil gratuitvsgpt-oss-120bnoneDisponibil gratuit Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium