Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

GLM 5 Turbo 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#21	GLM 5 Turbo medium	Z.ai	2.9	8.4	$0.323	0/3	71.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.323 Antwortzeit (Durchschnitt) 71.1s
#48	DeepSeek V3.2 medium	DeepSeek	2.9	7.5	$0.044	0/3	24.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 24.3s
#59	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	23.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 23.6s
#78	gpt-oss-120b medium	OpenAI	2.9	6.7	$0.013	0/3	50.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 50.9s
#87	Nemotron 3 Super medium	NVIDIA	2.9	6.3	$0.021	0/3	16.2s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 16.2s
#140	Cobuddy medium	Baidu	2.9	4.9	$0.000	0/3	128.2s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 128.2s
#145	GPT-5.4 Nano none	OpenAI	2.9	4.8	$0.011	0/3	926ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.011 Antwortzeit (Durchschnitt) 926ms
#146	MiniMax M2.5 medium	Minimax	2.9	4.7	$0.303	0/3	237.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.303 Antwortzeit (Durchschnitt) 237.3s
#11	Qwen3.6 Max Preview medium	Qwen	2.9	8.9	$0.960	0/3	95.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.960 Antwortzeit (Durchschnitt) 95.9s
#30	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.294	0/3	29.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.294 Antwortzeit (Durchschnitt) 29.6s
#31	Claude Sonnet 4.6 medium	Anthropic	2.9	7.8	$1.418	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.418 Antwortzeit (Durchschnitt) 0ms
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	2.9	7.8	$0.317	0/3	53.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.317 Antwortzeit (Durchschnitt) 53.1s
#34	Gemini 3.1 Flash Lite medium	Google	2.9	7.8	$0.071	0/3	3.16s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.071 Antwortzeit (Durchschnitt) 3.16s
#36	Qwen3.5-122B-A10B medium	Qwen	2.9	7.7	$0.588	0/3	63.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.588 Antwortzeit (Durchschnitt) 63.4s
#44	Mercury 2 medium	Inception	2.9	7.5	$0.058	0/3	6.48s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.058 Antwortzeit (Durchschnitt) 6.48s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)