Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Qwen3.6 Max Preview 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort314 Mit Fehlergrund Zeitüberschreitung34 Mit Fehlergrund Zusätzliche Formatierung12 Mit Fehlergrund API-Fehler6 Mit Fehlergrund Keine Antwort5 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#47	Grok Build 0.1 medium	X AI	5.3	7.4	1/3	158.0s
#49	Qwen3.5-Flash medium	Qwen	5.3	7.4	1/3	146.5s
#50	Gemini 3.1 Flash Lite Preview low	Google	5.3	7.4	1/3	2.36s
#51	Mimo V2 PRO medium	Xiaomi	5.3	7.4	1/3	8.82s
#55	GLM 5.1 medium	Z.ai	5.3	7.3	1/3	29.8s
#56	MiMo-V2.5 medium	Xiaomi	5.3	7.3	1/3	34.5s
#57	Step 3.7 Flash low	Stepfun	5.3	7.3	1/3	43.3s
#58	Gemini 3.1 Flash Lite Preview none	Google	5.3	7.2	1/3	942ms
#59	GLM 5V Turbo medium	Z.ai	5.3	7.2	1/3	38.1s
#60	Kimi K2.6 medium	Moonshot AI	5.3	7.2	1/3	202.4s
#61	Gemini 3.1 Flash Lite low	Google	5.3	7.2	1/3	1.52s
#62	Step 3.5 Flash medium	Stepfun	5.3	7.2	1/3	170.5s
#64	MiMo-V2-Flash medium	Xiaomi	5.9	7.2	1/3	96.0s
#65	Grok 4.20 medium	X AI	5.3	7.1	1/3	27.0s
#67	MiniMax M3 medium	Minimax	5.5	7.1	1/3	233.1s

Domänenspezifisch-Ranking

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)