Vergleichen Diagramme

Sprache:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs StepFun: Step 3.5 Flash

Modellname:

Benchmarks aus AI BENCHY-Test-Suites generiert am : 2026-02-27 15:16

Zusammenfassung

Metrik	Google: Gemini 3.1 Pro Preview medium Veröffentlichung: Unbekanntes Veröffentlichungsdatum	StepFun: Step 3.5 Flash medium Veröffentlichung: Unbekanntes Veröffentlichungsdatum Kostenlos verfügbar
Rang	#2	#11
Punktzahl	9.36	7.00
Konsistenz	10.00	8.32
Kosten pro Ergebnis	2.443	0.000
Gesamtkosten	$0.318	$0.000
Korrekte Tests
Falsche Tests	1	5
Erfolgsquote pro Versuch	92.9%	73.8%
Instabile Tests	0	3
Ausgabe-Token	1,000	60,502
Denk-Token	22,936	117,044

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Pro Preview	10.00	10.00	100.0%	0		106	2,533
StepFun: Step 3.5 Flash	10.00	10.00	100.0%	0		13,924	17,208

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Pro Preview	10.00	10.00	100.0%	0		292	3,164
StepFun: Step 3.5 Flash	10.00	10.00	100.0%	0		535	11,548

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Pro Preview	7.00	10.00	66.7%	0		18	10,688
StepFun: Step 3.5 Flash	4.00	7.21	44.4%	1		40,942	74,237

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Pro Preview	10.00	10.00	100.0%	0		72	2,436
StepFun: Step 3.5 Flash	10.00	10.00	100.0%	0		2,121	3,274

Puzzle Solving	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Pro Preview	10.00	10.00	100.0%	0		238	3,133
StepFun: Step 3.5 Flash	2.00	4.96	33.3%	2		2,705	6,975

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Pro Preview	10.00	10.00	100.0%	0		274	982
StepFun: Step 3.5 Flash	10.00	10.00	100.0%	0		275	3,802

Vergleichspaar wechseln

Google: Gemini 3.1 Pro Preview vergleichen mit...

StepFun: Step 3.5 Flash vergleichen mit...