Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Grok 4.20 Multi Agent Beta 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#100	Qwen3.6 Max Preview none	Qwen	7.7	6.0	$0.075	2/3	1.22s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.075 Antwortzeit (Durchschnitt) 1.22s
#34	Gemini 3.1 Flash Lite medium	Google	2.9	7.8	$0.071	0/3	3.16s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.071 Antwortzeit (Durchschnitt) 3.16s
#80	Step 3.5 Flash medium	Stepfun	5.3	6.6	$0.070	1/3	170.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.070 Antwortzeit (Durchschnitt) 170.5s
#115	Grok 4.1 Fast medium	X AI	5.8	5.6	$0.069	1/3	121.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.069 Antwortzeit (Durchschnitt) 121.8s
#32	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.8	$0.068	0/3	4.21s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 4.21s
#133	Mistral Small 4 medium	Mistral	5.3	5.1	$0.068	1/3	6.11s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 6.11s
#76	MiMo-V2.5 medium	Xiaomi	5.3	6.7	$0.063	1/3	34.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.063 Antwortzeit (Durchschnitt) 34.5s
#74	Hy3 preview high	Tencent	5.3	6.8	$0.059	1/3	109.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.059 Antwortzeit (Durchschnitt) 109.0s
#116	GLM 5.1 none	Z.ai	2.9	5.6	$0.058	0/3	1.99s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.058 Antwortzeit (Durchschnitt) 1.99s
#44	Mercury 2 medium	Inception	2.9	7.5	$0.058	0/3	6.48s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.058 Antwortzeit (Durchschnitt) 6.48s
#155	Grok 4.20 none	X AI	3.0	4.4	$0.057	0/3	687ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 687ms
#68	Qwen3.7 Max none	Qwen	7.7	6.9	$0.054	2/3	975ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 975ms
#157	GLM 4.7 Flash medium	Z.ai	3.5	4.3	$0.054	0/3	174.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 174.6s
#105	GLM 5V Turbo none	Z.ai	5.3	5.9	$0.052	1/3	2.09s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 2.09s
#123	GLM 5 Turbo none	Z.ai	5.3	5.3	$0.047	1/3	1.97s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 1.97s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)