Verglichene Modelle

Benchmark-Vergleich GLM 5 (medium) vs GLM 5.1 (medium) vs Kimi K2.5 (medium) vs Qwen3.6 Plus Preview (medium): GLM 5 (medium) führt bei Punktzahl mit 7.7. GLM 5 (medium) führt bei Zuverlässigkeit mit 10.0. Qwen3.6 Plus Preview (medium) hat den niedrigsten Gesamtkosten mit $0.000. Qwen3.6 Plus Preview (medium) ist mit 15.25s am schnellsten.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-25

Rang: #49
Gesamte Ausgabe-Token: 124,566
Antwortzeit (Durchschnitt): 33.54s
Gesamtkosten: $0.307

Rang: #82
Gesamte Ausgabe-Token: 152,552
Antwortzeit (Durchschnitt): 46.77s
Gesamtkosten: $0.535

Rang: #85
Gesamte Ausgabe-Token: 227,367
Antwortzeit (Durchschnitt): 99.00s
Gesamtkosten: $0.600

Rang: #190
Gesamte Ausgabe-Token: 63,350
Antwortzeit (Durchschnitt): 15.25s
Gesamtkosten: $0.000

Empfohlenes Modell GLM 5 (medium)

Es hat hier die beste Punktzahl (7.7) und kostet etwa 1.8x weniger als die anderen Modelle in diesem Vergleich.

Detaillierter Vergleich

Metrik	GLM 5 GLM 5 medium Veröffentlichung: 2026-02-12	GLM 5.1 GLM 5.1 medium Veröffentlichung: 2026-04-07	Kimi K2.5 Kimi K2.5 medium Veröffentlichung: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar

Metrik	GLM 5 GLM 5 medium Veröffentlichung: 2026-02-12	GLM 5.1 GLM 5.1 medium Veröffentlichung: 2026-04-07	Kimi K2.5 Kimi K2.5 medium Veröffentlichung: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar
Punktzahl	7.7	7.1	7.0	4.9
Rang	#49	#82	#85	#190
Zuverlässigkeit	10.0	8.3	10.0	k. A.
Konsistenz	8.1	8.4	7.0	8.6
Korrekte Tests
Erfolgsquote pro Versuch	78.8%	69.7%	65.2%	40.9%
Instabile Tests	4	4	8	0
Gesamtläufe	63	66	66	57
Kosten pro Ergebnis	1.668	4.202	4.789	0.000
Gesamtkosten	$0.307	$0.535	$0.600	$0.000
Eingabepreis	$0.950 / 1M	$0.966 / 1M	$0.571 / 1M	$0.000 / 1M
Ausgabepreis	$2.551 / 1M	$3.036 / 1M	$2.850 / 1M	$0.000 / 1M
Gesamte Eingabe-Token	35,224	82,623	118,448	32,639
Ausgabe-Token	21,570	16,089	62,124	1,153
Denk-Token	102,996	136,463	165,243	62,197
Antwortzeit (Durchschnitt)	33.54s	46.77s	99.00s	15.25s
Antwortzeit (Maximum)	99.85s	308.75s	281.00s	43.55s
Antwortzeit (Gesamt)	435.99s	982.16s	1485.04s	182.96s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 GLM 5

medium

Kosten: $0.005
Zeit: 20.7s
Token: 2,068 tok

#82 GLM 5.1

medium

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

#85 MoonshotAI: Kimi K2.5

medium

Kosten: $0.030
Zeit: 58.6s
Token: 8,683 tok

#190 Qwen3.6 Plus Preview

medium

Für dieses Modell wurde noch kein Showcase-Ergebnis generiert.

Kosten: $0.000
Zeit: -
Token: 0 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Kategorie:

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	10.0	10.0	100.0%	0	23.66s	555	480	7,056
GLM 5.1	10.0	10.0	100.0%	0	8.31s	555	401	5,122
Kimi K2.5	7.3	5.8	83.3%	2	51.38s	634	2,789	8,880
Qwen3.6 Plus Preview	8.3	10.0	75.0%	0	11.69s	501	61	5,812

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	10.0	10.0	100.0%	0	74.30s	7,254	2,997	52,930
GLM 5.1	4.6	3.7	44.5%	2	109.63s	5,702	4,871	37,826
Kimi K2.5	6.1	4.6	66.7%	2	217.49s	6,935	5,705	74,693
Qwen3.6 Plus Preview	9.8	3.3	0.0%	0	0ms	0	0	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	5.0	5.0	50.0%	28.96s	12,804	662	3,242
GLM 5.1	9.8	10.0	100.0%	175.93s	66,926	4,761	65,248
Kimi K2.5	6.7	9.1	50.0%	89.19s	95,416	14,448	11,209
Qwen3.6 Plus Preview	5.0	5.0	50.0%	34.95s	14,934	452	13,073

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	7.1	5.6	83.3%	1	8.90s	5,508	567	3,734
GLM 5.1	10.0	10.0	100.0%	0	9.33s	7,107	991	4,552
Kimi K2.5	10.0	10.0	100.0%	0	49.78s	7,020	563	7,940
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0	14.95s	7,782	270	10,706

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	3.5	4.4	33.3%	2	0ms	260	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0	29.77s	489	969	11,314
Kimi K2.5	3.5	4.4	33.3%	2	137.29s	485	20,753	30,564
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	22.08s	665	49	26,895

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	6.1	3.1	66.7%	1	14.69s	477	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0	20.95s	477	2,875	2,875
Kimi K2.5	6.5	3.4	66.7%	1	69.73s	480	3,815	4,262
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	0ms	0	0	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	10.0	10.0	100.0%	0	7.25s	636	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1	7.47s	634	204	1,617
Kimi K2.5	10.0	10.0	100.0%	0	92.47s	675	5,371	6,547
Qwen3.6 Plus Preview	6.5	10.0	50.0%	0	3.40s	381	27	1,383

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	10.0	10.0	100.0%	0	11.33s	609	33	4,076
GLM 5.1	8.2	7.2	88.9%	1	31.64s	609	935	5,730
Kimi K2.5	5.3	7.3	44.4%	1	43.23s	659	8,426	12,692
Qwen3.6 Plus Preview	5.3	10.0	33.3%	0	7.52s	183	27	2,998

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	10.0	10.0	100.0%	15.93s	6,935	233	994
GLM 5.1	3.0	10.0	0.0%	0ms	0	0	0
Kimi K2.5	10.0	10.0	100.0%	31.74s	5,933	242	812
Qwen3.6 Plus Preview	10.0	10.0	100.0%	5.87s	8,193	267	1,330

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
GLM 5	3.0	10.0	0.0%	67.37s	186	401	12,450
GLM 5.1	3.0	10.0	0.0%	29.40s	124	82	2,179
Kimi K2.5	3.0	10.0	0.0%	83.95s	211	12	7,644
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0ms	0	0	0

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.5 FlashnonevsKimi K2.5medium GPT-5.6 LunahighvsGLM 5medium Claude Opus 4.8lowvsGLM 5medium Qwen3.7 PlusnonevsGLM 5.1medium DeepSeek V4 FlashhighvsGLM 5medium DeepSeek V4 ProhighvsGLM 5medium DeepSeek V4 PrononevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.6 Solnone KAT-Coder-Pro V2.5highvsGLM 5.1medium Step 3.7 FlashlowvsGLM 5.1medium Kimi K2.5mediumvsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsGLM 5.1medium