AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.5-122B-A10B

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-01

Métrique	Mercury 2 Mercury 2 medium Sortie: 2026-02-24	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none Sortie: 2026-02-24

Métrique	Mercury 2 Mercury 2 medium Sortie: 2026-02-24	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none Sortie: 2026-02-24
Score	6.5	5.4
Rang	#93	#131
Fiabilité	10.0	10.0
Cohérence	8.8	9.5
Tests corrects
Taux de réussite par tentative	51.7%	33.3%
Tests instables	3	1
Exécutions totales	60	60
Coût par résultat	0.611	0.380
Coût total	$0.055	$0.019
Prix d'entrée	$0.250 / 1M	$0.260 / 1M
Prix de sortie	$0.750 / 1M	$2.080 / 1M
Jetons de sortie	4,022	3,374
Jetons de raisonnement	58,405	0
Temps de réponse (moy.)	2.27s	3.38s
Temps de réponse (max)	14.63s	46.00s
Temps de réponse (total)	43.20s	67.55s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
Qwen3.5-122B-A10B	4.8	10.0	25.0%	0		1.59s	312	0

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	7.2	6.5	66.7%	1		2.29s	270	8,514
Qwen3.5-122B-A10B	4.0	5.5	33.3%	1		2.14s	684	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		46.00s	1,137	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		1.01s	243	0

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
Qwen3.5-122B-A10B	5.3	10.0	33.3%	0		465ms	15	0

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
Qwen3.5-122B-A10B	5.0	10.0	0.0%	0		1.12s	66	0

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
Qwen3.5-122B-A10B	6.3	10.0	50.0%	0		513ms	69	0

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	5.4	10.0	33.3%	0		949ms	361	2,781
Qwen3.5-122B-A10B	3.8	10.0	0.0%	0		1.00s	575	0

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		2.04s	264	0

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Mercury 2	3.0	10.0	0.0%	0		2.58s	22	3,748
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		295ms	9	0

Comparaison rapide

Changer la paire de comparaison

MiniMax M2.7mediumvsQwen3.5-122B-A10Bnone Elephant AlphamediumvsQwen3.5-122B-A10Bnone Mistral Small 4mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium DeepSeek V4 ProhighvsMercury 2medium MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Gemini 2.5 FlashnonevsMercury 2medium Gemini 3.1 Flash LiteminimalvsMercury 2medium Mercury 2mediumvsGLM 5none Gemma 4 31BnoneDisponible gratuitementvsMercury 2medium