AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.5-122B-A10B

Zusammenfassung

Mercury 2 vs Qwen3.5-122B-A10B Benchmark-Vergleich: Qwen3.5-122B-A10B führt beim Durchschnittsscore mit 7.7 vs 7.5. Mercury 2 hat die niedrigeren Benchmark-Kosten mit $0.058 vs $0.588. Mercury 2 ist schneller mit 2.24s vs 42.49s, mit Erfolgsraten von 54.0% vs 73.0%.

Empfohlenes Modell: Mercury 2 - Die Punktzahl bleibt nah an der besten hier (7.5 vs 7.7) und es kostet etwa 10.2x weniger als Qwen3.5-122B-A10B.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	Mercury 2 Mercury 2 medium Veröffentlichung: 2026-02-24	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Veröffentlichung: 2026-02-24

Metrik	Mercury 2 Mercury 2 medium Veröffentlichung: 2026-02-24	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Veröffentlichung: 2026-02-24
Punktzahl	7.5	7.7
Rang	#44	#36
Zuverlässigkeit	10.0	10.0
Konsistenz	8.8	8.8
Korrekte Tests
Erfolgsquote pro Versuch	54.0%	73.0%
Instabile Tests	3	3
Gesamtläufe	63	63
Kosten pro Ergebnis	0.578	5.235
Gesamtkosten	$0.058	$0.588
Eingabepreis	$0.250 / 1M	$0.260 / 1M
Ausgabepreis	$0.750 / 1M	$2.080 / 1M
Gesamte Eingabe-Token	35,116	41,832
Ausgabe-Token	4,048	26,187
Denk-Token	61,219	251,028
Antwortzeit (Durchschnitt)	2.24s	42.49s
Antwortzeit (Maximum)	14.63s	168.16s
Antwortzeit (Gesamt)	44.72s	892.30s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#44 Mercury 2

medium

Kosten: $0.002
Zeit: 2.1s
Token: 1,702 tok

#36 Qwen3.5-122B-A10B

medium

Kosten: $0.019
Zeit: 48.7s
Token: 6,034 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	672	269	16,835

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328
Qwen3.5-122B-A10B	6.0	7.2	55.6%	1		114.48s	7,630	8,057	82,578

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	14,947	483	11,337

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	7,782	270	16,558

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	771	15,537	64,889

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	344	66	7,592

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	593	77	7,372

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	696	284	27,575

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	8,193	322	1,226

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	204	822	15,066

Schnellvergleich

Vergleichspaar wechseln

Mercury 2mediumvsGPT-5.3 Chatnone Qwen3.5-122B-A10BmediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsMercury 2medium DeepSeek V4 ProhighvsQwen3.5-122B-A10Bmedium Mercury 2mediumvsStep 3.7 Flashlow Gemini 3 Flash PreviewlowvsMercury 2medium GPT-5.3 ChatnonevsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6nonevsMercury 2medium Claude Opus 4.8nonevsMercury 2medium Gemini 3 Flash PreviewlowvsQwen3.5-122B-A10Bmedium DeepSeek V4 PrononevsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone