Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

GLM 5 Turbo 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#111	Kimi K2.6 none	Moonshot AI	5.3	5.8	$0.079	1/3	1.48s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.079 Antwortzeit (Durchschnitt) 1.48s
#112	GPT-5.4 none	OpenAI	5.3	5.8	$0.122	1/3	1.07s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.122 Antwortzeit (Durchschnitt) 1.07s
#133	Mistral Small 4 medium	Mistral	5.3	5.1	$0.068	1/3	6.11s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 6.11s
#138	Laguna M.1 medium	Poolside	5.3	5.0	$0.000	1/3	24.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 24.1s
#144	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	73.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.026 Antwortzeit (Durchschnitt) 73.4s
#151	Mercury 2 none	Inception	5.3	4.6	$0.011	1/3	534ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.011 Antwortzeit (Durchschnitt) 534ms
#159	MiMo-V2-Flash none	Xiaomi	5.3	4.3	$0.025	1/3	564ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 564ms
#4	GPT-5.5 low	OpenAI	5.3	9.3	$0.907	1/3	28.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.907 Antwortzeit (Durchschnitt) 28.1s
#12	Claude Opus 4.8 medium	Anthropic	5.3	8.8	$1.107	1/3	14.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.107 Antwortzeit (Durchschnitt) 14.2s
#19	GPT-5.2 Chat none	OpenAI	5.3	8.5	$0.393	1/3	17.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.393 Antwortzeit (Durchschnitt) 17.8s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	8.0	$0.310	1/3	17.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.310 Antwortzeit (Durchschnitt) 17.5s
#29	Qwen3.5-27B medium	Qwen	5.3	7.9	$0.536	1/3	79.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.536 Antwortzeit (Durchschnitt) 79.5s
#42	Grok Build 0.1 medium	X AI	5.3	7.6	$0.927	1/3	158.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.927 Antwortzeit (Durchschnitt) 158.0s
#51	MiMo-V2.5-Pro medium	Xiaomi	5.3	7.4	$0.106	1/3	37.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 37.9s
#53	Grok 4.20 medium	X AI	5.3	7.3	$0.609	1/3	27.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.609 Antwortzeit (Durchschnitt) 27.0s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)