Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

North Mini Code 5.3

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#40	MiniMax M3 medium	Minimax	5.5	7.6	$0.131	1/3	233.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.131 Antwortzeit (Durchschnitt) 233.1s
#75	Qwen3.6 35B A3B medium	Qwen	5.3	6.7	$0.146	1/3	22.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.146 Antwortzeit (Durchschnitt) 22.5s
#41	DeepSeek V4 Pro high	DeepSeek	3.6	7.6	$0.157	0/3	151.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.157 Antwortzeit (Durchschnitt) 151.5s
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	3.5	8.1	$0.158	0/3	24.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.158 Antwortzeit (Durchschnitt) 24.9s
#16	GPT-5 Mini medium	OpenAI	3.6	8.5	$0.159	0/3	44.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.159 Antwortzeit (Durchschnitt) 44.6s
#18	Seed-2.0-Lite medium	Bytedance Seed	5.9	8.5	$0.175	1/3	88.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.175 Antwortzeit (Durchschnitt) 88.7s
#25	Qwen3.7 Plus medium	Qwen	3.6	8.2	$0.177	0/3	45.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.177 Antwortzeit (Durchschnitt) 45.3s
#15	GLM 5 medium	Z.ai	3.5	8.6	$0.228	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.228 Antwortzeit (Durchschnitt) 0ms
#90	GPT-5.5 none	OpenAI	2.9	6.3	$0.231	0/3	1.31s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.231 Antwortzeit (Durchschnitt) 1.31s
#47	Qwen3.6 Flash medium	Qwen	3.5	7.5	$0.288	0/3	14.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.288 Antwortzeit (Durchschnitt) 14.6s
#64	GLM 5.1 medium	Z.ai	5.3	7.1	$0.292	1/3	29.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.292 Antwortzeit (Durchschnitt) 29.8s
#30	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.294	0/3	29.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.294 Antwortzeit (Durchschnitt) 29.6s
#146	MiniMax M2.5 medium	Minimax	2.9	4.7	$0.303	0/3	237.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.303 Antwortzeit (Durchschnitt) 237.3s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	8.0	$0.310	1/3	17.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.310 Antwortzeit (Durchschnitt) 17.5s
#55	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.316	2/3	3.54s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.316 Antwortzeit (Durchschnitt) 3.54s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)