Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

GLM 5 Turbo 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#168	Step 3.5 Flash none	Stepfun	3.3	2.6	$0.020	1/1	34.5s
Gesamttests 1 Falsche Tests 0 Gesamtkosten $0.020 Antwortzeit (Durchschnitt) 34.5s
#15	GLM 5 medium	Z.ai	3.5	8.6	$0.228	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.228 Antwortzeit (Durchschnitt) 0ms
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	3.5	8.1	$0.158	0/3	24.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.158 Antwortzeit (Durchschnitt) 24.9s
#43	Kimi K2.5 medium	Moonshot AI	3.5	7.5	$0.348	0/3	137.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.348 Antwortzeit (Durchschnitt) 137.3s
#45	GPT-5.3 Chat none	OpenAI	3.5	7.5	$0.433	0/3	13.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.433 Antwortzeit (Durchschnitt) 13.0s
#47	Qwen3.6 Flash medium	Qwen	3.5	7.5	$0.288	0/3	14.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.288 Antwortzeit (Durchschnitt) 14.6s
#72	Ring-2.6-1T medium	Inclusionai	3.5	6.8	$0.033	0/3	64.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 64.9s
#124	GPT-5.4 Mini none	OpenAI	3.5	5.3	$0.038	0/3	937ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.038 Antwortzeit (Durchschnitt) 937ms
#128	Qwen3.6 35B A3B none	Qwen	3.5	5.2	$0.031	0/3	7.45s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.031 Antwortzeit (Durchschnitt) 7.45s
#157	GLM 4.7 Flash medium	Z.ai	3.5	4.3	$0.054	0/3	174.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 174.6s
#16	GPT-5 Mini medium	OpenAI	3.6	8.5	$0.159	0/3	44.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.159 Antwortzeit (Durchschnitt) 44.6s
#25	Qwen3.7 Plus medium	Qwen	3.6	8.2	$0.177	0/3	45.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.177 Antwortzeit (Durchschnitt) 45.3s
#41	DeepSeek V4 Pro high	DeepSeek	3.6	7.6	$0.157	0/3	151.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.157 Antwortzeit (Durchschnitt) 151.5s
#83	Gemini 3.1 Flash Lite high	Google	3.6	6.5	$2.044	0/3	139.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $2.044 Antwortzeit (Durchschnitt) 139.9s
#92	Seed-2.0-Lite none	Bytedance Seed	3.6	6.2	$0.019	0/3	1.33s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.019 Antwortzeit (Durchschnitt) 1.33s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)