AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.6 35B A3B

Zusammenfassung

Mercury 2 vs Qwen3.6 35B A3B Benchmark-Vergleich: Qwen3.6 35B A3B führt beim Durchschnittsscore mit 5.2 vs 4.6. Mercury 2 hat die niedrigeren Benchmark-Kosten mit $0.011 vs $0.031. Mercury 2 ist schneller mit 653ms vs 3.73s, mit Erfolgsraten von 23.8% vs 30.2%.

Empfohlenes Modell: Mercury 2 - Die Punktzahl bleibt nah an der besten hier (4.6 vs 5.2) und es kostet etwa 2.9x weniger als Qwen3.6 35B A3B.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	Mercury 2 Mercury 2 none Veröffentlichung: 2026-02-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none Veröffentlichung: 2026-04-20

Metrik	Mercury 2 Mercury 2 none Veröffentlichung: 2026-02-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none Veröffentlichung: 2026-04-20
Punktzahl	4.6	5.2
Rang	#151	#128
Zuverlässigkeit	10.0	10.0
Konsistenz	9.2	8.0
Korrekte Tests
Erfolgsquote pro Versuch	23.8%	30.2%
Instabile Tests	2	5
Gesamtläufe	63	63
Kosten pro Ergebnis	0.259	0.754
Gesamtkosten	$0.011	$0.031
Eingabepreis	$0.250 / 1M	$0.140 / 1M
Ausgabepreis	$0.750 / 1M	$1.000 / 1M
Gesamte Eingabe-Token	28,113	19,329
Ausgabe-Token	4,439	27,755
Denk-Token	0	0
Antwortzeit (Durchschnitt)	653ms	3.73s
Antwortzeit (Maximum)	1.43s	22.52s
Antwortzeit (Gesamt)	13.72s	70.86s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Mercury 2

none

Kosten: $0.002
Zeit: 1.8s
Token: 1,514 tok

#128 Qwen3.6 35B A3B

none

Kosten: $0.008
Zeit: 30.1s
Token: 6,317 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Qwen3.6 35B A3B	3.6	7.6	16.7%	1		2.10s	696	1,571	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.4	9.6	0.0%	0		1.03s	7,229	3,088	0
Qwen3.6 35B A3B	5.5	10.0	33.3%	0		8.77s	7,911	11,161	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		1.46s	7,788	248	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Qwen3.6 35B A3B	3.5	4.4	33.3%	2		7.45s	781	11,381	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Qwen3.6 35B A3B	4.4	3.0	33.3%	1		3.51s	520	1,545	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Qwen3.6 35B A3B	6.2	5.8	66.7%	1		1.86s	709	1,264	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Qwen3.6 35B A3B	3.2	9.9	0.0%	0		1.07s	714	573	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		414ms	210	12	0

Schnellvergleich

Vergleichspaar wechseln

MiniMax M2.7mediumvsQwen3.6 35B A3Bnone Mercury 2nonevsQwen3 Coder Nextmedium Mistral Small 4mediumvsQwen3.6 35B A3Bnone Mercury 2nonevsMiniMax M2.5medium CobuddymediumvsQwen3.6 35B A3Bnone CobuddymediumvsMercury 2none Mercury 2nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumvsQwen3.6 35B A3Bnone Mercury 2nonevsMistral Small 4medium Mercury 2nonevsMiniMax M2.7medium North Mini CodemediumKostenlos verfügbarvsQwen3.6 35B A3Bnone Mercury 2nonevsQwen3.5-9Bmedium