Vergleichen Diagramme

Sprache:

❤️ Made by XCS

AI BENCHY Compare

Verglichene Modelle

Vergleichen:

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-03-04

Metrik	Google: Gemini 3.1 Flash Lite Preview low Veröffentlichung: 2026-03-03	Google: Gemini 3.1 Flash Lite Preview medium Veröffentlichung: 2026-03-03	Google: Gemini 3.1 Flash Lite Preview high Veröffentlichung: 2026-03-03	Google: Gemini 3 Flash Preview low Veröffentlichung: 2025-12-17
Rang	#12	#19	#7	#8
Ø-Score	7.38	7.12	7.92	7.87
Konsistenz	10.00	10.00	9.99	9.44
Kosten pro Ergebnis	0.162	0.403	17.455	0.624
Gesamtkosten	$0.017	$0.037	$1.920	$0.069
Korrekte Tests
Erfolgsquote pro Versuch	66.7%	60.0%	73.3%	75.6%
Instabile Tests	0	0	0	1
Ausgabe-Token	1,392	1,417	943	1,274
Denk-Token	6,379	19,435	1,275,768	18,372

Top-Modelle nach Score

Score vs. Gesamtkosten

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	7.00	10.00	66.7%	0		456	1,224
Google: Gemini 3.1 Flash Lite Preview	9.00	9.99	66.7%	0		564	3,780
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		144	193,077
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		275	2,476

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	1.00	10.00	0.0%	0		75	253
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		109	2,449
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		112	126,813
Google: Gemini 3 Flash Preview	1.00	10.00	0.0%	0		104	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		291	696
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		279	2,952
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		279	6,186
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		305	3,004

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		18	1,212
Google: Gemini 3.1 Flash Lite Preview	1.00	10.00	0.0%	0		18	5,325
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		18	566,202
Google: Gemini 3 Flash Preview	4.00	7.21	44.4%	1		12	6,410

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	8.50	10.00	50.0%	0		72	753
Google: Gemini 3.1 Flash Lite Preview	8.00	9.99	50.0%	0		72	2,121
Google: Gemini 3.1 Flash Lite Preview	8.00	9.96	50.0%	0		69	190,053
Google: Gemini 3 Flash Preview	7.50	9.99	50.0%	0		71	2,752

Puzzle Solving	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		243	1,248
Google: Gemini 3.1 Flash Lite Preview	7.00	10.00	66.7%	0		141	1,896
Google: Gemini 3.1 Flash Lite Preview	7.00	10.00	66.7%	0		87	190,953
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		273	3,315

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		237	993
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		234	912
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		234	2,484
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		234	415

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumKostenlos verfügbar Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2medium Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone