Inception: Mercury 2 vs Mistral: Mistral Small 4

Mistral Small 4 (medium) führt beim Durchschnittsscore mit 5.1 vs 4.6. Mercury 2 hat die niedrigeren Benchmark-Kosten mit $0.030 vs $0.096. Mercury 2 ist schneller mit 829ms vs 10.77s, mit Erfolgsraten von 22.7% vs 42.4%.

Empfohlenes ModellMercury 2Die Punktzahl bleibt nah an der besten hier (4.6 vs 5.1) und es kostet etwa 3.3x weniger als Mistral Small 4 (medium).

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-18

Metrik	Mercury 2 Mercury 2 none Veröffentlichung: 2026-02-24	Mistral Small 4 Mistral Small 4 medium Veröffentlichung: 2026-03-16

Metrik	Mercury 2 Mercury 2 none Veröffentlichung: 2026-02-24	Mistral Small 4 Mistral Small 4 medium Veröffentlichung: 2026-03-16
Punktzahl	4.6	5.1
Rang	#185	#163
Zuverlässigkeit	10.0	10.0
Konsistenz	9.2	7.0
Korrekte Tests
Erfolgsquote pro Versuch	22.7%	42.4%
Instabile Tests	2	8
Gesamtläufe	66	66
Kosten pro Ergebnis	0.734	1.913
Gesamtkosten	$0.030	$0.096
Eingabepreis	$0.250 / 1M	$0.150 / 1M
Ausgabepreis	$0.750 / 1M	$0.600 / 1M
Gesamte Eingabe-Token	88,704	140,494
Ausgabe-Token	9,564	39,462
Denk-Token	0	92,362
Antwortzeit (Durchschnitt)	829ms	10.77s
Antwortzeit (Maximum)	4.52s	59.15s
Antwortzeit (Gesamt)	18.24s	236.94s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#185 Mercury 2

none

Kosten: $0.002
Zeit: 1.8s
Token: 1,514 tok

#163 Mistral Small 4

medium

Kosten: $0.006
Zeit: 47.9s
Token: 9,857 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Kategorie:

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Mistral Small 4	5.6	3.8	66.7%	3		2.67s	708	4,055	4,778

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.4	9.6	0.0%	0		1.03s	7,229	3,088	0
Mistral Small 4	4.4	5.1	33.3%	2		39.98s	7,636	11,635	54,715

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.0	10.0	0.0%	0		2.56s	65,412	5,256	0
Mistral Small 4	3.0	10.0	0.0%	0		32.40s	116,624	17,890	18,384

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Mistral Small 4	7.3	5.9	83.3%	1		1.23s	6,171	335	723

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Mistral Small 4	5.3	7.2	44.4%	1		6.11s	742	2,621	6,904

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Mistral Small 4	4.8	10.0	0.0%	0		2.05s	519	821	828

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Mistral Small 4	7.3	5.8	83.3%	1		1.38s	729	540	1,031

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Mistral Small 4	3.4	9.7	0.0%	0		2.17s	735	1,226	2,632

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Mistral Small 4	10.0	10.0	100.0%	0		3.50s	6,420	321	810

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Mistral Small 4	3.0	10.0	0.0%	0		5.92s	210	18	1,557

Schnellvergleich

Vergleichspaar wechseln

Mistral Small 4mediumvsMiMo-V2.5none Mistral Small 4mediumvsQwen3.5-9Bnone Mistral Small 4mediumvsQwen3 Coder Nextnone North Mini CodenoneKostenlos verfügbarvsMistral Small 4medium CobuddymediumvsMercury 2none Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsMiniMax M2.5medium Mistral Small 4mediumvsInklingnone DeepSeek V3.2nonevsMistral Small 4medium Mistral Small 4mediumvsGPT-4o-mininone Ling-2.6-1TnonevsMistral Small 4medium Mistral Small 4mediumvsQwen3.6 35B A3Bnone