Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

GLM 5 Turbo 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#66	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $1.079 Antwortzeit (Durchschnitt) 10.6s
#5	Gemini 3.5 Flash low	Google	7.7	9.2	$0.349	2/3	3.39s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.349 Antwortzeit (Durchschnitt) 3.39s
#7	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.054	2/3	32.7s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $1.054 Antwortzeit (Durchschnitt) 32.7s
#8	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.582	2/3	5.24s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.582 Antwortzeit (Durchschnitt) 5.24s
#13	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$0.679	2/3	1.17s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.679 Antwortzeit (Durchschnitt) 1.17s
#20	Step 3.7 Flash medium	Stepfun	7.7	8.5	$0.376	2/3	48.3s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.376 Antwortzeit (Durchschnitt) 48.3s
#49	Claude Opus 4.7 none	Anthropic	7.7	7.4	$0.505	2/3	1.19s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.505 Antwortzeit (Durchschnitt) 1.19s
#55	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.316	2/3	3.54s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.316 Antwortzeit (Durchschnitt) 3.54s
#67	Gemini 3 Flash Preview none	Google	7.7	6.9	$0.025	2/3	963ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 963ms
#68	Qwen3.7 Max none	Qwen	7.7	6.9	$0.054	2/3	975ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 975ms
#88	Gemma 4 31B medium	Google	7.7	6.3	$0.033	2/3	38.5s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 38.5s
#97	Qwen3.5-Flash none	Qwen	7.7	6.1	$0.005	2/3	905ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.005 Antwortzeit (Durchschnitt) 905ms
#98	Gemma 4 31B none	Google	7.7	6.1	$0.004	2/3	3.22s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 3.22s
#100	Qwen3.6 Max Preview none	Qwen	7.7	6.0	$0.075	2/3	1.22s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.075 Antwortzeit (Durchschnitt) 1.22s
#103	Qwen3.5-35B-A3B none	Qwen	7.7	5.9	$0.012	2/3	485ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.012 Antwortzeit (Durchschnitt) 485ms

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)