Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Grok 4.20 Multi Agent Beta 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#148	Qwen3 Coder Next medium	Qwen	5.3	4.7	$0.008	1/3	638ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 638ms
#137	Trinity Large Preview none	Arcee AI	5.3	5.0	$0.008	1/3	877ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 877ms
#161	Grok 4.1 Fast none	X AI	5.9	4.0	$0.008	1/3	1.06s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.06s
#117	DeepSeek V4 Flash none	DeepSeek	5.3	5.5	$0.007	1/3	19.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 19.7s
#129	Mistral Small 4 none	Mistral	5.3	5.1	$0.007	1/3	367ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 367ms
#134	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.007	0/3	756ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 756ms
#142	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.007	0/3	6.23s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 6.23s
#139	GPT-4o-mini none	OpenAI	3.0	5.0	$0.006	0/3	637ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.006 Antwortzeit (Durchschnitt) 637ms
#135	Qwen3.5-9B none	Qwen	3.0	5.1	$0.006	0/3	464ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.006 Antwortzeit (Durchschnitt) 464ms
#147	Ling-2.6-1T none	Inclusionai	3.0	4.7	$0.005	0/3	1.04s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.005 Antwortzeit (Durchschnitt) 1.04s
#97	Qwen3.5-Flash none	Qwen	7.7	6.1	$0.005	2/3	905ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.005 Antwortzeit (Durchschnitt) 905ms
#141	GLM 4.7 Flash none	Z.ai	7.7	4.9	$0.004	2/3	744ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 744ms
#121	Gemma 4 26B A4B none	Google	3.6	5.5	$0.004	0/3	2.49s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 2.49s
#98	Gemma 4 31B none	Google	7.7	6.1	$0.004	2/3	3.22s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 3.22s
#163	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.003	0/3	357ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 357ms

←

1 9 10 11 12

→

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)