AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs Qwen: Qwen3.5-27B

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-03

Metrik	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Veröffentlichung: 2026-03-03	Qwen3.5-27B Qwen3.5-27B medium Veröffentlichung: 2026-02-24

Metrik	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Veröffentlichung: 2026-03-03	Qwen3.5-27B Qwen3.5-27B medium Veröffentlichung: 2026-02-24
Punktzahl	7.6	7.9
Rang	#44	#24
Zuverlässigkeit	10.0	10.0
Konsistenz	10.0	8.9
Korrekte Tests
Erfolgsquote pro Versuch	65.0%	73.3%
Instabile Tests	0	3
Gesamtläufe	60	60
Kosten pro Ergebnis	0.186	4.532
Gesamtkosten	$0.025	$0.488
Eingabepreis	$0.250 / 1M	$0.195 / 1M
Ausgabepreis	$1.500 / 1M	$1.560 / 1M
Gesamte Eingabe-Token	29,708	39,329
Ausgabe-Token	2,280	2,569
Denk-Token	8,829	304,894
Antwortzeit (Durchschnitt)	2.85s	60.09s
Antwortzeit (Maximum)	11.91s	177.36s
Antwortzeit (Gesamt)	57.08s	1201.89s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	506	462	1,638
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	672	569	31,505

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.56s	5,131	654	723
Qwen3.5-27B	7.0	9.8	50.0%	0		123.86s	5,060	416	64,993

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	8,381	225	762
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	14,946	483	9,991

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	7,455	291	696
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	7,782	270	16,150

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	641	18	1,212
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	553	43	52,368

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	490	69	384
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	524	70	23,147

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	621	72	753
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	699	97	11,638

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.69s	566	243	1,248
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	696	242	70,096

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	5,757	237	993
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	8,193	348	1,323

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		1.35s	160	9	420
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	204	31	23,683

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium DeepSeek V4 FlashhighvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsMimo V2 PROmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.5 FlashminimalvsQwen3.5-27Bmedium GPT-5.2 ChatnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3.5 FlashnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium