AI BENCHY Compare

Google: Gemini 2.5 Flash vs Qwen: Qwen3.6 35B A3B

Zusammenfassung

Gemini 2.5 Flash vs Qwen3.6 35B A3B Benchmark-Vergleich: Qwen3.6 35B A3B führt beim Durchschnittsscore mit 6.7 vs 6.2. Gemini 2.5 Flash hat die niedrigeren Benchmark-Kosten mit $0.016 vs $0.146. Gemini 2.5 Flash ist schneller mit 875ms vs 18.08s, mit Erfolgsraten von 46.0% vs 63.5%.

Empfohlenes Modell: Gemini 2.5 Flash - Die Punktzahl bleibt nah an der besten hier (6.2 vs 6.7) und es kostet etwa 9.6x weniger als Qwen3.6 35B A3B.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	Gemini 2.5 Flash Gemini 2.5 Flash none Veröffentlichung: 2025-06-17	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Veröffentlichung: 2026-04-20

Metrik	Gemini 2.5 Flash Gemini 2.5 Flash none Veröffentlichung: 2025-06-17	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Veröffentlichung: 2026-04-20
Punktzahl	6.2	6.7
Rang	#93	#75
Zuverlässigkeit	10.0	10.0
Konsistenz	9.6	9.6
Korrekte Tests
Erfolgsquote pro Versuch	46.0%	63.5%
Instabile Tests	1	1
Gesamtläufe	63	63
Kosten pro Ergebnis	0.169	1.094
Gesamtkosten	$0.016	$0.146
Eingabepreis	$0.300 / 1M	$0.140 / 1M
Ausgabepreis	$2.500 / 1M	$1.000 / 1M
Gesamte Eingabe-Token	35,926	16,385
Ausgabe-Token	1,770	19,632
Denk-Token	0	130,219
Antwortzeit (Durchschnitt)	875ms	18.08s
Antwortzeit (Maximum)	4.39s	86.11s
Antwortzeit (Gesamt)	18.37s	343.61s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#93 Gemini 2.5 Flash

none

Ungültiges SVG

Kosten: $0.164
Zeit: 215.5s
Token: 65,659 tok

#75 Qwen3.6 35B A3B

medium

Ungültiges SVG

Kosten: $0.000
Zeit: 300.0s
Token: 0 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	3.0	10.0	0.0%	0		582ms	492	102	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		6.02s	672	1,154	12,385

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	5.5	10.0	33.3%	0		736ms	8,122	483	0
Qwen3.6 35B A3B	7.7	10.0	66.7%	0		50.55s	5,051	7,929	37,223

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	3.0	10.0	0.0%	0		4.39s	12,519	366	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	10.0	10.0	100.0%	0		652ms	7,257	279	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		12.99s	7,776	2,591	9,968

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	5.9	7.2	55.6%	1		495ms	633	12	0
Qwen3.6 35B A3B	5.3	7.2	44.4%	1		22.50s	771	6,193	39,116

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	5.0	10.0	0.0%	0		615ms	486	78	0
Qwen3.6 35B A3B	4.4	9.9	0.0%	0		8.66s	516	129	4,569

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	10.0	10.0	100.0%	0		590ms	615	72	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		7.50s	699	219	7,404

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	7.7	10.0	66.7%	0		604ms	558	132	0
Qwen3.6 35B A3B	8.0	10.0	66.7%	0		5.95s	696	655	9,228

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	10.0	10.0	100.0%	0		1.91s	5,088	234	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 2.5 Flash	3.0	10.0	0.0%	0		1.15s	156	12	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		32.90s	204	762	10,326

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.5 FlashminimalvsQwen3.6 35B A3Bmedium Gemini 2.5 FlashnonevsQwen3.5-35B-A3Bmedium Gemini 2.5 FlashnonevsNemotron 3 SupermediumKostenlos verfügbar Gemini 3 Flash PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 35B A3Bmedium Gemini 3.5 FlashnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 35B A3Bmedium North Mini CodemediumKostenlos verfügbarvsGemini 2.5 Flashnone Qwen3.6 35B A3BmediumvsStep 3.7 Flashhigh Qwen3.6 35B A3BmediumvsGLM 5.2none Gemini 2.5 FlashnonevsQwen3.6 27Bmedium