AI BENCHY Compare

Qwen: Qwen3.6 27B vs Z.ai: GLM 5

Zusammenfassung

Qwen3.6 27B vs GLM 5 Benchmark-Vergleich: Qwen3.6 27B führt beim Durchschnittsscore mit 6.6 vs 6.0. GLM 5 hat die niedrigeren Benchmark-Kosten mit $0.027 vs $0.430. GLM 5 ist schneller mit 4.03s vs 59.71s, mit Erfolgsraten von 60.3% vs 44.4%.

Empfohlenes Modell: GLM 5 - Die Punktzahl bleibt nah an der besten hier (6.0 vs 6.6) und es kostet etwa 16.5x weniger als Qwen3.6 27B.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-12

Metrik	Qwen3.6 27B Qwen3.6 27B medium Veröffentlichung: 2026-04-20	GLM 5 GLM 5 none Veröffentlichung: 2026-02-12

Metrik	Qwen3.6 27B Qwen3.6 27B medium Veröffentlichung: 2026-04-20	GLM 5 GLM 5 none Veröffentlichung: 2026-02-12
Punktzahl	6.6	6.0
Rang	#80	#106
Zuverlässigkeit	10.0	10.0
Konsistenz	8.2	9.7
Korrekte Tests
Erfolgsquote pro Versuch	60.3%	44.4%
Instabile Tests	5	1
Gesamtläufe	63	63
Kosten pro Ergebnis	3.361	0.263
Gesamtkosten	$0.430	$0.027
Eingabepreis	$0.288 / 1M	$0.600 / 1M
Ausgabepreis	$3.100 / 1M	$1.920 / 1M
Gesamte Eingabe-Token	39,376	37,135
Ausgabe-Token	16,189	1,989
Denk-Token	122,521	0
Antwortzeit (Durchschnitt)	59.71s	4.03s
Antwortzeit (Maximum)	168.22s	11.07s
Antwortzeit (Gesamt)	1254.01s	56.37s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#80 Qwen3.6 27B

medium

Cost: $0.009
Time: 39.6s
Tokens: 3,090 tok

#106 GLM 5

none

Cost: $0.007
Time: 32.1s
Tokens: 2,023 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311
GLM 5	4.8	10.0	25.0%	0		2.37s	510	275	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	7.7	10.0	66.7%	0		142.99s	5,051	7,968	43,367
GLM 5	4.0	7.8	11.1%	1		5.12s	7,256	428	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689
GLM 5	3.0	10.0	0.0%	0		4.98s	12,812	406	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404
GLM 5	10.0	10.0	100.0%	0		5.78s	7,107	203	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352
GLM 5	3.0	10.0	0.0%	0		2.24s	643	19	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045
GLM 5	10.0	10.0	100.0%	0		3.27s	477	103	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548
GLM 5	10.0	10.0	100.0%	0		1.48s	636	61	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044
GLM 5	7.7	10.0	66.7%	0		1.91s	609	261	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954
GLM 5	10.0	10.0	100.0%	0		11.07s	6,899	220	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807
GLM 5	3.0	10.0	0.0%	0		3.62s	186	13	0

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 27Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 27Bmedium Gemini 3.1 Flash LiteminimalvsGLM 5none Gemini 3.5 FlashminimalvsQwen3.6 27Bmedium DeepSeek V4 ProhighvsGLM 5none GPT-5.5nonevsQwen3.6 27Bmedium DeepSeek V4 ProhighvsQwen3.6 27Bmedium Gemini 3 Flash PreviewnonevsQwen3.6 27Bmedium Qwen3.5-35B-A3BmediumvsGLM 5none DeepSeek V4 PrononevsQwen3.6 27Bmedium Gemma 4 31BmediumKostenlos verfügbarvsGLM 5none