AI BENCHY Compare

Qwen: Qwen3.6 27B vs Z.ai: GLM 4.7 Flash

Zusammenfassung

Qwen3.6 27B vs GLM 4.7 Flash Benchmark-Vergleich: Qwen3.6 27B führt beim Durchschnittsscore mit 5.5 vs 4.9. GLM 4.7 Flash hat die niedrigeren Benchmark-Kosten mit $0.004 vs $0.025. GLM 4.7 Flash ist schneller mit 2.86s vs 3.72s, mit Erfolgsraten von 47.6% vs 36.5%.

Empfohlenes Modell: Qwen3.6 27B - Es hat die stärkste Punktzahl in diesem Vergleich (5.5) und die beste Gesamtbalance aus Kosten und Antwortzeit über alle 2 Modelle.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Qwen3.6 27B Qwen3.6 27B none Veröffentlichung: 2026-04-20	GLM 4.7 Flash GLM 4.7 Flash none Veröffentlichung: 2026-01-19

Metrik	Qwen3.6 27B Qwen3.6 27B none Veröffentlichung: 2026-04-20	GLM 4.7 Flash GLM 4.7 Flash none Veröffentlichung: 2026-01-19
Punktzahl	5.5	4.9
Rang	#124	#146
Zuverlässigkeit	10.0	10.0
Konsistenz	7.6	8.8
Korrekte Tests
Erfolgsquote pro Versuch	47.6%	36.5%
Instabile Tests	6	3
Gesamtläufe	63	63
Kosten pro Ergebnis	0.467	0.056
Gesamtkosten	$0.025	$0.004
Eingabepreis	$0.286 / 1M	$0.060 / 1M
Ausgabepreis	$2.400 / 1M	$0.400 / 1M
Gesamte Eingabe-Token	52,721	38,745
Ausgabe-Token	3,812	2,521
Denk-Token	0	0
Antwortzeit (Durchschnitt)	3.72s	2.86s
Antwortzeit (Maximum)	11.82s	7.05s
Antwortzeit (Gesamt)	78.08s	40.04s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#124 Qwen3.6 27B

none

Kosten: $0.009
Zeit: 83.0s
Token: 4,549 tok

#146 GLM 4.7 Flash

none

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	3.8	3.7	41.7%	3		2.83s	696	490	0
GLM 4.7 Flash	5.2	7.9	41.7%	1		5.51s	555	438	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	5.5	10.0	33.3%	0		4.16s	7,913	539	0
GLM 4.7 Flash	4.3	10.0	0.0%	0		2.54s	7,256	650	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	3.0	10.0	0.0%	0		9.95s	22,497	1,401	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		3.22s	14,325	704	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	7.3	5.8	83.3%	1		2.06s	7,788	248	0
GLM 4.7 Flash	7.3	5.8	83.3%	1		4.82s	7,107	196	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	7.7	10.0	66.7%	0		3.03s	789	24	0
GLM 4.7 Flash	7.7	10.0	66.7%	0		744ms	687	19	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	5.2	9.9	0.0%	0		1.07s	522	72	0
GLM 4.7 Flash	4.0	10.0	0.0%	0		1.59s	477	134	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	6.2	5.8	66.7%	1		1.92s	711	49	0
GLM 4.7 Flash	6.5	10.0	50.0%	0		888ms	636	62	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	5.3	7.2	44.4%	1		5.15s	714	639	0
GLM 4.7 Flash	6.4	10.0	33.3%	0		1.20s	609	97	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	9.5	10.0	100.0%	0		6.74s	10,881	339	0
GLM 4.7 Flash	2.8	1.6	33.3%	1		7.05s	6,907	212	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	3.0	10.0	0.0%	0		4.03s	210	11	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		692ms	186	9	0

Schnellvergleich

Vergleichspaar wechseln

CobuddymediumvsGLM 4.7 Flashnone MiniMax M2.5mediumvsGLM 4.7 Flashnone Qwen3 Coder NextmediumvsGLM 4.7 Flashnone Mistral Small 4mediumvsGLM 4.7 Flashnone MiniMax M2.7mediumvsGLM 4.7 Flashnone MiniMax M2.7mediumvsQwen3.6 27Bnone North Mini CodemediumKostenlos verfügbarvsQwen3.6 27Bnone Mistral Small 4mediumvsQwen3.6 27Bnone CobuddymediumvsQwen3.6 27Bnone Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bnone MiniMax M2.5mediumvsQwen3.6 27Bnone Gemma 4 31BmediumKostenlos verfügbarvsQwen3.6 27Bnone