Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Grok 4.20 Multi Agent Beta 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	3.5	8.1	$0.158	0/3	24.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.158 Antwortzeit (Durchschnitt) 24.9s
#41	DeepSeek V4 Pro high	DeepSeek	3.6	7.6	$0.157	0/3	151.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.157 Antwortzeit (Durchschnitt) 151.5s
#75	Qwen3.6 35B A3B medium	Qwen	5.3	6.7	$0.146	1/3	22.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.146 Antwortzeit (Durchschnitt) 22.5s
#40	MiniMax M3 medium	Minimax	5.5	7.6	$0.131	1/3	233.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.131 Antwortzeit (Durchschnitt) 233.1s
#112	GPT-5.4 none	OpenAI	5.3	5.8	$0.122	1/3	1.07s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.122 Antwortzeit (Durchschnitt) 1.07s
#52	Gemini 3 Flash Preview low	Google	5.3	7.4	$0.111	1/3	8.05s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.111 Antwortzeit (Durchschnitt) 8.05s
#71	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.108	3/3	899ms
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.108 Antwortzeit (Durchschnitt) 899ms
#46	GPT-5.4 Nano medium	OpenAI	5.9	7.5	$0.107	1/3	38.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.107 Antwortzeit (Durchschnitt) 38.2s
#51	MiMo-V2.5-Pro medium	Xiaomi	5.3	7.4	$0.106	1/3	37.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 37.9s
#127	MiniMax M2.7 medium	Minimax	3.0	5.2	$0.104	0/3	19.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.104 Antwortzeit (Durchschnitt) 19.0s
#149	Grok 4.20 Beta none	X AI	3.0	4.7	$0.087	0/3	611ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 611ms
#79	GPT-5 Nano medium	OpenAI	5.2	6.7	$0.081	1/3	204.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.081 Antwortzeit (Durchschnitt) 204.0s
#70	Qwen3.5-Flash medium	Qwen	5.3	6.8	$0.080	1/3	146.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.080 Antwortzeit (Durchschnitt) 146.5s
#111	Kimi K2.6 none	Moonshot AI	5.3	5.8	$0.079	1/3	1.48s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.079 Antwortzeit (Durchschnitt) 1.48s
#61	GLM 5.2 none	Z.ai	5.3	7.1	$0.076	1/3	6.50s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.076 Antwortzeit (Durchschnitt) 6.50s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)