AI BENCHY Compare

DeepSeek: DeepSeek V4 Flash vs Qwen: Qwen3.5 Plus 2026-02-15

Zusammenfassung

DeepSeek V4 Flash vs Qwen3.5 Plus 2026-02-15 Benchmark-Vergleich: DeepSeek V4 Flash führt beim Durchschnittsscore mit 8.3 vs 8.0. DeepSeek V4 Flash hat die niedrigeren Benchmark-Kosten mit $0.027 vs $0.310. DeepSeek V4 Flash ist schneller mit 45.85s vs 73.79s, mit Erfolgsraten von 74.6% vs 73.0%.

Empfohlenes Modell: DeepSeek V4 Flash - Es hat hier die beste Punktzahl (8.3) und kostet etwa 11.9x weniger als Qwen3.5 Plus 2026-02-15.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	DeepSeek V4 Flash DeepSeek V4 Flash high Veröffentlichung: 2026-04-24	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium Veröffentlichung: 2026-02-15

Metrik	DeepSeek V4 Flash DeepSeek V4 Flash high Veröffentlichung: 2026-04-24	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium Veröffentlichung: 2026-02-15
Punktzahl	8.3	8.0
Rang	#23	#28
Zuverlässigkeit	10.0	10.0
Konsistenz	8.5	8.8
Korrekte Tests
Erfolgsquote pro Versuch	74.6%	73.0%
Instabile Tests	4	3
Gesamtläufe	63	63
Kosten pro Ergebnis	0.299	2.445
Gesamtkosten	$0.027	$0.310
Eingabepreis	$0.090 / 1M	$0.260 / 1M
Ausgabepreis	$0.180 / 1M	$1.560 / 1M
Gesamte Eingabe-Token	39,745	40,918
Ausgabe-Token	10,310	2,159
Denk-Token	123,501	189,604
Antwortzeit (Durchschnitt)	45.85s	73.79s
Antwortzeit (Maximum)	218.13s	266.69s
Antwortzeit (Gesamt)	962.79s	1033.07s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#23 DeepSeek V4 Flash

high

Kosten: $0.003
Zeit: 93.1s
Token: 7,926 tok

#28 Qwen3.5 Plus 2026-02-15

medium

Kosten: $0.011
Zeit: 125.5s
Token: 7,040 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	8.3	10.0	75.0%	0		28.51s	540	140	7,770
Qwen3.5 Plus 2026-02-15	8.2	7.9	83.3%	1		45.78s	672	205	21,236

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	7.8	10.0	66.7%	0		50.60s	7,279	395	34,862
Qwen3.5 Plus 2026-02-15	6.6	7.1	44.4%	1		180.70s	6,950	420	80,595

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	10.0	10.0	100.0%	0		76.57s	14,016	465	7,347
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		46.85s	14,934	421	7,906

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	10.0	10.0	100.0%	0		28.03s	7,290	201	1,179
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		46.91s	7,782	270	14,916

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	4.1	4.4	44.5%	2		100.31s	666	27	59,249
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		17.50s	444	35	16,680

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	6.1	3.1	66.7%	1		25.15s	471	79	632
Qwen3.5 Plus 2026-02-15	4.7	1.6	66.7%	1		79.86s	344	73	8,675

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	10.0	10.0	100.0%	0		15.36s	627	63	1,622
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		31.93s	699	101	7,704

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	8.2	7.2	88.9%	1		26.11s	594	196	1,767
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		32.50s	696	301	13,853

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	10.0	10.0	100.0%	0		74.73s	8,079	228	542
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		7.54s	8,193	309	909

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
DeepSeek V4 Flash	3.0	10.0	0.0%	0		54.46s	183	8,516	8,531
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		103.81s	204	24	17,130

Schnellvergleich

Vergleichspaar wechseln