Comparer Graphiques Méthodologie

Langue:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Inception: Mercury 2

Comparer:

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-03-05

Métrique	Anthropic: Claude Sonnet 4.6 none Sortie: 2026-02-17	Inception: Mercury 2 medium Sortie: 2026-02-24
Score moy.	6.9	5.4
Rang	#25	#35
Tests corrects
Cohérence	10.0	8.3
Coût par résultat	2.460	0.622
Coût total	$0.246	$0.044
Taux de réussite par tentative	66.7%	57.8%
Tests instables	0	3
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Jetons de sortie	6,703	3,571
Jetons de raisonnement	0	45,379
Temps de réponse (moy.)	5.94s	2.47s
Temps de réponse (max)	23.84s	14.63s
Temps de réponse (total)	47.55s	34.56s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score moy. vs Temps de réponse (moy.)

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Anthropic: Claude Sonnet 4.6	4.0	10.0	33.3%	0		4.83s	1,199	0
Inception: Mercury 2	7.3	9.8	66.7%	0		1.30s	2,531	2,410

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Anthropic: Claude Sonnet 4.6	9.0	10.0	100.0%	0		23.84s	3,766	0
Inception: Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Anthropic: Claude Sonnet 4.6	9.9	10.0	100.0%	0		3.43s	252	0
Inception: Mercury 2	5.5	5.9	83.3%	1		1.11s	183	1,656

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Anthropic: Claude Sonnet 4.6	7.0	10.0	66.7%	0		3.54s	413	0
Inception: Mercury 2	10.0	7.2	11.1%	1		6.48s	41	30,754

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Anthropic: Claude Sonnet 4.6	5.5	10.0	50.0%	0		1.96s	90	0
Inception: Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958

Puzzle Solving	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Anthropic: Claude Sonnet 4.6	7.0	10.0	66.7%	0		2.92s	536	0
Inception: Mercury 2	1.7	7.5	22.2%	1		934ms	354	2,758

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Anthropic: Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	447	0
Inception: Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956

Comparaison rapide

Changer la paire de comparaison

Claude Sonnet 4.6nonevsGPT-5.2medium Claude Sonnet 4.6nonevsQwen3.5-Flashmedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 2.5 FlashnonevsMercury 2medium DeepSeek V3.2nonevsMercury 2medium Mercury 2mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsGLM 5none Claude Sonnet 4.6nonevsGrok 4.1 Fastmedium Claude Sonnet 4.6nonevsGemini 3.1 Flash Lite Previewmedium Claude Sonnet 4.6nonevsKimi K2.5medium Mercury 2mediumvsQwen3.5-Flashnone Mercury 2mediumvsQwen3.5-27Bnone