#56

Qwen3.6 Max Preview

Qwen Veröffentlichung: 2026-04-20 Getestet am: 2026-04-27 23:05 qwen/qwen3.6-max-preview::none

(medium) (none)

Zusammenfassung

Qwen3.6 Max Preview erreicht 7.3 bei AI BENCHY und liegt auf #56. Das Modell hat 10.0 Zuverlässigkeit, 66.7% Erfolgsrate, $0.083 Gesamtkosten und 3.38s durchschnittliche Antwortzeit.

Was Qwen3.6 Max Preview besonders macht: Am stärksten ist es in Domänenspezifisch, wo es #1 erreicht; am schwächsten ist Anti-KI-Tricks mit #17. Es ist im Vergleich zu ähnlichen Modellen auffällig schnell.

Punktzahl

7.3

Konsistenz

8.7

Zuverlässigkeit

10.0

Gesamtkosten (aktueller Preis)

$0.083

Gesamte Ausgabe-Token

4,732

Gesamte Eingabe-Token

Eingabepreis

$1.300 / 1M

Ausgabepreis

$7.800 / 1M

Korrekte Tests

Falsche Tests: 8

Erfolgsquote pro Versuch: 66.7%

Instabile Tests

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

3.38s

Antwortzeit (Maximum): 20.51s

Antwortzeit (Gesamt): 60.83s

Falsche Antwort: 7 Anweisungen nicht befolgt: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#56 Qwen3.6 Max Preview

none

Kosten: $0.025
Zeit: 83.9s
Token: 4,066 tok

Testverlauf

Getestet am	Punktzahl	Zuverlässigkeit	Gesamtkosten	Vergleichen
2026-07-16 21:32 Neuer Test hinzugefügt	6.6	9.9	$0.231 ↓	Vergleichen
2026-06-04 13:21 Neuer Test hinzugefügt	6.9	10.0	$0.075 ↓	Vergleichen
2026-05-21 23:53 Suite geändert	7.1	10.0	$0.088	Vergleichen
2026-04-27 23:05 Erster Lauf	7.3	10.0	$0.083	Aktueller Lauf

Laufvergleich

Lauf	Punktzahl	Konsistenz	Zuverlässigkeit	Korrekte Tests	Instabile Tests	Gesamte Ausgabe-Token	Gesamte Eingabe-Token	Gesamtkosten	Antwortzeit (Durchschnitt)
2026-04-27 23:05 · Erster Lauf	7.3	8.7	10.0	10/18	3	4,732	0	$0.083	3.38s
2026-06-04 13:21 · Neuer Test hinzugefügt	6.9	9.2	10.0	11/21	2	4,779	42,509	$0.075	3.30s
Differenz	+0.5	-0.5	0.0	-1	+1	-47	-42509	+$0.009	+75ms

Diese beiden Läufe nutzten unterschiedliche Benchmark-Suiten, daher spiegeln die Deltas sowohl Modell- als auch Suite-Änderungen wider.

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Qwen3.6 Max PreviewnonevsLongCat 2.0high Qwen3.6 Max PreviewnonevsGemini 3.5 Flash-Litemedium Qwen3.6 Max PreviewnonevsGLM 5.2none Qwen3.6 Max PreviewnonevsQwen3.6 27Bmedium Qwen3.6 Max PreviewnonevsGemma 4 26B A4BmediumKostenlos verfügbar Qwen3.6 Max PreviewnonevsMiMo-V2.5medium Qwen3.6 Max PreviewnonevsKAT-Coder-Pro V2.5none Qwen3.6 Max PreviewnonevsLaguna XS 2.1mediumKostenlos verfügbar Qwen3.6 Max PreviewnonevsLongCat 2.0low Qwen3.6 Max PreviewnonevsQwen3.5-27Bnone

Kategorieaufschlüsselung

Kategorie	Punktzahl	Konsistenz
Anti-KI-Tricks	5.2	7.9
Programmierung	5.0	2.0
Kombiniert	3.0	10.0
Datenanalyse und -extraktion	10.0	10.0
Domänenspezifisch	7.7	10.0
Allgemeine Intelligenz	4.3	10.0
Befolgung von Anweisungen	8.4	6.9
Rätsellösen	10.0	10.0
Werkzeugaufrufe	10.0	10.0

Qwen3.6 Max Preview

Hamster playing table tennis

#56 Qwen3.6 Max Preview

Diagramme

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Verglichene Modelle