Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

GLM 5 Turbo 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#162	Laguna Xs.2 none	Poolside	5.3	4.0	$0.000	1/3	371ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 371ms
#40	MiniMax M3 medium	Minimax	5.5	7.6	$0.131	1/3	233.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.131 Antwortzeit (Durchschnitt) 233.1s
#115	Grok 4.1 Fast medium	X AI	5.8	5.6	$0.069	1/3	121.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.069 Antwortzeit (Durchschnitt) 121.8s
#3	Qwen3.7 Max medium	Qwen	5.9	9.4	$0.523	1/3	24.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.523 Antwortzeit (Durchschnitt) 24.9s
#10	GPT-5.3-Codex medium	OpenAI	5.9	8.9	$0.740	1/3	64.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 64.3s
#18	Seed-2.0-Lite medium	Bytedance Seed	5.9	8.5	$0.175	1/3	88.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.175 Antwortzeit (Durchschnitt) 88.7s
#22	GPT-5.2 medium	OpenAI	5.9	8.4	$0.548	1/3	77.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 77.8s
#24	Gemini 2.5 Flash medium	Google	5.9	8.2	$0.379	1/3	37.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.379 Antwortzeit (Durchschnitt) 37.3s
#46	GPT-5.4 Nano medium	OpenAI	5.9	7.5	$0.107	1/3	38.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.107 Antwortzeit (Durchschnitt) 38.2s
#62	MiMo-V2-Flash medium	Xiaomi	5.9	7.1	$0.043	1/3	96.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.043 Antwortzeit (Durchschnitt) 96.0s
#86	Hy3 preview low	Tencent	5.9	6.4	$0.018	1/3	40.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.018 Antwortzeit (Durchschnitt) 40.4s
#93	Gemini 2.5 Flash none	Google	5.9	6.2	$0.016	1/3	495ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 495ms
#161	Grok 4.1 Fast none	X AI	5.9	4.0	$0.008	1/3	1.06s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.06s
#169	LFM2-24B-A2B none	Liquid	5.9	2.4	$0.001	1/3	287ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 287ms
#1	Gemini 3.5 Flash high	Google	7.6	9.8	$1.115	2/3	14.1s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $1.115 Antwortzeit (Durchschnitt) 14.1s

←

1 9 10 11 12

→

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)