Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Grok 4.20 Multi Agent Beta 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#109	Mimo V2 PRO none	Xiaomi	5.3	5.8	$0.045	1/3	1.78s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 1.78s
#59	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	23.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 23.6s
#48	DeepSeek V3.2 medium	DeepSeek	2.9	7.5	$0.044	0/3	24.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 24.3s
#50	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.4	$0.044	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 0ms
#62	MiMo-V2-Flash medium	Xiaomi	5.9	7.1	$0.043	1/3	96.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.043 Antwortzeit (Durchschnitt) 96.0s
#124	GPT-5.4 Mini none	OpenAI	3.5	5.3	$0.038	0/3	937ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.038 Antwortzeit (Durchschnitt) 937ms
#165	Qwen3.5-9B medium	Qwen	3.6	3.8	$0.036	0/3	137.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.036 Antwortzeit (Durchschnitt) 137.7s
#58	DeepSeek V4 Pro none	DeepSeek	5.3	7.2	$0.034	1/3	3.72s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.034 Antwortzeit (Durchschnitt) 3.72s
#72	Ring-2.6-1T medium	Inclusionai	3.5	6.8	$0.033	0/3	64.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 64.9s
#88	Gemma 4 31B medium	Google	7.7	6.3	$0.033	2/3	38.5s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 38.5s
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	5.3	5.5	$0.032	1/3	4.43s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.032 Antwortzeit (Durchschnitt) 4.43s
#128	Qwen3.6 35B A3B none	Qwen	3.5	5.2	$0.031	0/3	7.45s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.031 Antwortzeit (Durchschnitt) 7.45s
#120	Qwen3.6 27B none	Qwen	7.7	5.5	$0.028	2/3	3.03s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.028 Antwortzeit (Durchschnitt) 3.03s
#85	Gemini 3.1 Flash Lite low	Google	5.3	6.4	$0.028	1/3	1.52s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.028 Antwortzeit (Durchschnitt) 1.52s
#118	Kimi K2.5 none	Moonshot AI	5.3	5.5	$0.027	1/3	4.38s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.027 Antwortzeit (Durchschnitt) 4.38s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)