Inception: Mercury 2 vs OpenAI: GPT-5.5

Mercury 2 (medium) mène au score moyen avec 7.0 vs 6.9. Mercury 2 (medium) a le coût de benchmark le plus bas avec $0.093 vs $0.544. GPT-5.5 est plus rapide avec 2.36s vs 2.72s, avec des taux de réussite de 51.5% vs 56.1%.

Modèle recommandéMercury 2 (medium)Il obtient le meilleur score ici (7.0) tout en coûtant environ 5.9x moins que GPT-5.5.

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-07-24

Métrique	Mercury 2 Mercury 2 medium Sortie: 2026-02-24	GPT-5.5 GPT-5.5 none Sortie: 2026-04-24

Métrique	Mercury 2 Mercury 2 medium Sortie: 2026-02-24	GPT-5.5 GPT-5.5 none Sortie: 2026-04-24
Score	7.0	6.9
Rang	#82	#91
Fiabilité	10.0	10.0
Cohérence	8.8	8.9
Tests corrects
Taux de réussite par tentative	51.5%	56.1%
Tests instables	3	3
Exécutions totales	66	66
Coût par résultat	0.928	4.945
Coût total	$0.093	$0.544
Prix d'entrée	$0.250 / 1M	$5.000 / 1M
Prix de sortie	$0.750 / 1M	$30.000 / 1M
Total des jetons d'entrée	109,572	79,285
Jetons de sortie	10,313	4,915
Jetons de raisonnement	76,806	0
Temps de réponse (moy.)	2.72s	2.36s
Temps de réponse (max)	14.63s	12.24s
Temps de réponse (total)	57.12s	51.88s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#82 Mercury 2

medium

Coût: $0.002
Temps: 2.1s
Tokens: 1,702 tok

#91 GPT-5.5

none

Coût: $0.090
Temps: 54.3s
Tokens: 3,063 tok

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Catégorie:

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
GPT-5.5	6.9	7.9	66.7%	1		1.31s	606	213	0

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328
GPT-5.5	5.5	10.0	33.3%	0		1.35s	7,305	462	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	6.7	9.1	50.0%	0		7.84s	87,365	6,533	20,474
GPT-5.5	6.5	10.0	50.0%	0		8.90s	56,092	3,244	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
GPT-5.5	10.0	10.0	100.0%	0		1.18s	7,140	222	0

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
GPT-5.5	2.9	7.2	11.1%	1		1.31s	723	52	0

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
GPT-5.5	10.0	10.0	100.0%	0		3.41s	477	124	0

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
GPT-5.5	6.2	5.8	66.7%	1		1.15s	660	81	0

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
GPT-5.5	7.7	10.0	66.7%	0		1.29s	642	252	0

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
GPT-5.5	10.0	10.0	100.0%	0		3.90s	5,445	247	0

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons d'entrée	Jetons de sortie	Jetons de raisonnement
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
GPT-5.5	3.0	10.0	0.0%	0		5.01s	195	18	0

Comparaison rapide

Changer la paire de comparaison

GPT-5.5nonevsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsMercury 2medium GPT-5.5nonevsQwen3.6 Flashmedium GPT-5.5nonevsMiMo-V2.5-Promedium Gemini 3.5 FlashminimalvsGPT-5.5none KAT-Coder-Pro V2.5mediumvsGPT-5.5none DeepSeek V4 PrononevsMercury 2medium Mercury 2mediumvsGPT-5.6 Solnone Seed-2.0-MinimediumvsGPT-5.5none GPT-5.5nonevsQwen3.6 35B A3Bmedium Mercury 2mediumvsStep 3.7 Flashhigh Kimi K2.5mediumvsGPT-5.5none