AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs xAI: Grok 4.20

Zusammenfassung

Qwen3.6 Max Preview vs Grok 4.20 Benchmark-Vergleich: Grok 4.20 führt beim Durchschnittsscore mit 7.1 vs 6.9. Qwen3.6 Max Preview hat die niedrigeren Benchmark-Kosten mit $0.075 vs $0.609. Qwen3.6 Max Preview ist schneller mit 3.30s vs 27.68s, mit Erfolgsraten von 58.7% vs 63.5%.

Empfohlenes Modell: Qwen3.6 Max Preview - Die Punktzahl bleibt nah an der besten hier (6.9 vs 7.1) und es kostet etwa 8.2x weniger als Grok 4.20.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-10

Metrik	Qwen3.6 Max Preview Qwen3.6 Max Preview none Veröffentlichung: 2026-04-20	Grok 4.20 Grok 4.20 medium Veröffentlichung: 2026-03-31

Metrik	Qwen3.6 Max Preview Qwen3.6 Max Preview none Veröffentlichung: 2026-04-20	Grok 4.20 Grok 4.20 medium Veröffentlichung: 2026-03-31
Punktzahl	6.9	7.1
Rang	#75	#66
Zuverlässigkeit	10.0	10.0
Konsistenz	9.2	8.8
Korrekte Tests
Erfolgsquote pro Versuch	58.7%	63.5%
Instabile Tests	2	3
Gesamtläufe	63	63
Kosten pro Ergebnis	0.824	8.309
Gesamtkosten	$0.075	$0.609
Eingabepreis	$1.040 / 1M	$1.250 / 1M
Ausgabepreis	$6.240 / 1M	$2.500 / 1M
Gesamte Eingabe-Token	42,509	44,433
Ausgabe-Token	4,779	1,819
Denk-Token	0	219,524
Antwortzeit (Durchschnitt)	3.30s	27.68s
Antwortzeit (Maximum)	20.51s	199.66s
Antwortzeit (Gesamt)	69.40s	581.26s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#75 Qwen3.6 Max Preview

none

Cost: $0.025
Time: 83.9s
Tokens: 4,066 tok

#66 xAI: Grok 4.20

medium

Cost: $0.041
Time: 110.3s
Tokens: 16,336 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	696	513	0
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	3.8	7.3	22.2%	1		3.12s	7,913	456	0
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	14,949	2,842	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	7,794	243	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	789	18	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	522	76	0
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.40s	711	69	0
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.65s	714	321	0
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	8,211	222	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		1.97s	210	19	0
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

Schnellvergleich

Vergleichspaar wechseln

Ring-2.6-1TmediumvsQwen3.6 Max Previewnone Seed-2.0-MinimediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsQwen3.6 Max Previewnone GPT-5.3 ChatnonevsGrok 4.20medium Gemini 3.1 Flash LitelowvsGrok 4.20medium Claude Opus 4.8nonevsGrok 4.20medium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.20medium Step 3.7 FlashhighvsGrok 4.20medium DeepSeek V3.2mediumvsQwen3.6 Max Previewnone Step 3.7 FlashlowvsGrok 4.20medium Qwen3.6 Max PreviewnonevsStep 3.7 Flashhigh GPT-5.4 NanomediumvsQwen3.6 Max Previewnone