AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5.4 Mini

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-17

Metrică	Mercury 2 Mercury 2 medium Lansare: 2026-02-24	GPT-5.4 Mini GPT-5.4 Mini none Lansare: 2026-03-17

Metrică	Mercury 2 Mercury 2 medium Lansare: 2026-02-24	GPT-5.4 Mini GPT-5.4 Mini none Lansare: 2026-03-17
Rang	#42	#66
Scor	6.3	4.8
Consistență	8.5	8.6
Cost per rezultat	0.634	0.737
Cost total	$0.045	$0.030
Teste corecte
Rată de trecere pe încercare	51.0%	31.4%
Teste instabile	3	3
Rulări totale	51	51
Tokenuri de ieșire	3,723	2,085
Tokenuri de raționament	46,120	0
Timp de răspuns (mediu)	2.25s	1.17s
Timp de răspuns (maxim)	14.63s	2.52s
Timp de răspuns (total)	35.99s	19.82s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	654	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	298	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	222	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	88	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	174	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	101	0

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.9	7.5	22.2%	1		934ms	354	2,758
GPT-5.4 Mini	5.4	10.0	33.3%	0		860ms	293	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	255	0

Comparație rapidă

Schimbă perechea de comparație

GPT-5.4 MininonevsQwen3 Coder Nextmedium DeepSeek V3.2nonevsMercury 2medium GPT-5.4 MininonevsGLM 4.7 Flashmedium Mercury 2mediumvsQwen3.5-Flashnone Seed-2.0-LitenonevsMercury 2medium GPT-5.4 MininonevsQwen3.5-9Bmedium Gemini 2.5 FlashnonevsMercury 2medium Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGLM 5none Mercury 2mediumvsHunter Alphanone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsQwen3.5-122B-A10Bnone