AI BENCHY Compare

Qwen: Qwen3.5-35B-A3B vs Qwen: Qwen3.6 27B

Zusammenfassung

Qwen3.5-35B-A3B (medium) vs Qwen3.6 27B (medium) Benchmark-Vergleich: Qwen3.6 27B (medium) führt beim Durchschnittsscore mit 6.6 vs 6.3. Qwen3.6 27B (medium) hat die niedrigeren Benchmark-Kosten mit $0.336 vs $0.401. Qwen3.6 27B (medium) ist schneller mit 59.71s vs 72.57s, mit Erfolgsraten von 69.8% vs 60.3%.

Empfohlenes Modell: Qwen3.6 27B (medium) - Es hat die stärkste Punktzahl in diesem Vergleich (6.6) und die beste Gesamtbalance aus Kosten und Antwortzeit über alle 2 Modelle.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-10

Metrik	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Veröffentlichung: 2026-02-24	Qwen3.6 27B Qwen3.6 27B medium Veröffentlichung: 2026-04-20

Metrik	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Veröffentlichung: 2026-02-24	Qwen3.6 27B Qwen3.6 27B medium Veröffentlichung: 2026-04-20
Punktzahl	6.3	6.6
Rang	#104	#95
Zuverlässigkeit	10.0	10.0
Konsistenz	7.5	8.2
Korrekte Tests
Erfolgsquote pro Versuch	69.8%	60.3%
Instabile Tests	6	5
Gesamtläufe	63	63
Kosten pro Ergebnis	5.162	3.361
Gesamtkosten	$0.401	$0.336
Eingabepreis	$0.140 / 1M	$0.286 / 1M
Ausgabepreis	$1.000 / 1M	$2.400 / 1M
Gesamte Eingabe-Token	42,196	39,376
Ausgabe-Token	40,630	16,189
Denk-Token	353,577	122,521
Antwortzeit (Durchschnitt)	72.57s	59.71s
Antwortzeit (Maximum)	409.98s	168.22s
Antwortzeit (Gesamt)	1524.04s	1254.01s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#104 Qwen3.5-35B-A3B

medium

Kosten: $0.009
Zeit: 71.4s
Token: 8,631 tok

#95 Qwen3.6 27B

medium

Kosten: $0.009
Zeit: 39.6s
Token: 3,090 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.13s	672	798	42,652
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	5.9	9.3	33.3%	0		206.65s	4,106	23,844	111,462
Qwen3.6 27B	7.7	10.0	66.7%	0		142.99s	5,051	7,968	43,367

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	20,992	775	12,485
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	6,061	235	19,493
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	500	41	46,368
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	172	20	3,753
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	699	97	17,361
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	8.2	7.2	88.9%	1		33.13s	597	3,592	26,585
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	8,193	309	1,365
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		177.35s	204	10,919	72,053
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807

Schnellvergleich

Vergleichspaar wechseln

GPT-5.5nonevsQwen3.5-35B-A3Bmedium GPT-5.6 SolnonevsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 27Bmedium Seed-2.0-LitenonevsQwen3.5-35B-A3Bmedium GPT-5.6 LunalowvsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 27Bmedium Gemini 2.5 FlashnonevsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash LitelowvsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash LiteminimalvsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash LitenonevsQwen3.5-35B-A3Bmedium