Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Grok 4.20 Multi Agent Beta 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#29	Qwen3.5-27B medium	Qwen	5.3	7.9	$0.536	1/3	79.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.536 Antwortzeit (Durchschnitt) 79.5s
#27	GPT-5.4 Mini medium	OpenAI	4.1	8.0	$0.526	0/3	65.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.526 Antwortzeit (Durchschnitt) 65.3s
#3	Qwen3.7 Max medium	Qwen	5.9	9.4	$0.523	1/3	24.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.523 Antwortzeit (Durchschnitt) 24.9s
#49	Claude Opus 4.7 none	Anthropic	7.7	7.4	$0.505	2/3	1.19s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.505 Antwortzeit (Durchschnitt) 1.19s
#56	GLM 5V Turbo medium	Z.ai	5.3	7.3	$0.457	1/3	38.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.457 Antwortzeit (Durchschnitt) 38.1s
#81	Qwen3.6 27B medium	Qwen	2.9	6.6	$0.440	0/3	73.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.440 Antwortzeit (Durchschnitt) 73.4s
#45	GPT-5.3 Chat none	OpenAI	3.5	7.5	$0.433	0/3	13.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.433 Antwortzeit (Durchschnitt) 13.0s
#89	Qwen3.5-35B-A3B medium	Qwen	4.1	6.3	$0.401	0/3	88.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.401 Antwortzeit (Durchschnitt) 88.3s
#19	GPT-5.2 Chat none	OpenAI	5.3	8.5	$0.393	1/3	17.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.393 Antwortzeit (Durchschnitt) 17.8s
#91	Gemini 3 PRO Preview medium	Google	5.3	6.2	$0.385	1/3	7.01s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.385 Antwortzeit (Durchschnitt) 7.01s
#24	Gemini 2.5 Flash medium	Google	5.9	8.2	$0.379	1/3	37.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.379 Antwortzeit (Durchschnitt) 37.3s
#20	Step 3.7 Flash medium	Stepfun	7.7	8.5	$0.376	2/3	48.3s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.376 Antwortzeit (Durchschnitt) 48.3s
#5	Gemini 3.5 Flash low	Google	7.7	9.2	$0.349	2/3	3.39s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.349 Antwortzeit (Durchschnitt) 3.39s
#43	Kimi K2.5 medium	Moonshot AI	3.5	7.5	$0.348	0/3	137.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.348 Antwortzeit (Durchschnitt) 137.3s
#39	Step 3.7 Flash low	Stepfun	5.3	7.7	$0.341	1/3	43.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.341 Antwortzeit (Durchschnitt) 43.3s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)