Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

GLM 5 Turbo 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#121	Gemma 4 26B A4B none	Google	3.6	5.5	$0.004	0/3	2.49s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 2.49s
#142	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.007	0/3	6.23s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 6.23s
#150	Laguna M.1 none	Poolside	3.6	4.6	$0.000	0/3	5.50s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 5.50s
#158	Hy3 preview none	Tencent	3.6	4.3	$0.003	0/3	17.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 17.6s
#160	Grok Build 0.1 none	X AI	3.6	4.2	$0.547	0/3	103.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 103.7s
#165	Qwen3.5-9B medium	Qwen	3.6	3.8	$0.036	0/3	137.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.036 Antwortzeit (Durchschnitt) 137.7s
#167	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.6	3.5	$0.000	0/3	489ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 489ms
#14	GLM 5.2 medium	Z.ai	4.1	8.7	$0.324	0/3	45.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.324 Antwortzeit (Durchschnitt) 45.5s
#23	DeepSeek V4 Flash high	DeepSeek	4.1	8.3	$0.027	0/3	100.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.027 Antwortzeit (Durchschnitt) 100.3s
#27	GPT-5.4 Mini medium	OpenAI	4.1	8.0	$0.526	0/3	65.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.526 Antwortzeit (Durchschnitt) 65.3s
#63	Step 3.7 Flash high	Stepfun	4.1	7.1	$1.148	0/3	149.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.148 Antwortzeit (Durchschnitt) 149.6s
#89	Qwen3.5-35B-A3B medium	Qwen	4.1	6.3	$0.401	0/3	88.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.401 Antwortzeit (Durchschnitt) 88.3s
#156	Laguna Xs.2 medium	Poolside	4.1	4.3	$0.000	0/3	11.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 11.1s
#79	GPT-5 Nano medium	OpenAI	5.2	6.7	$0.081	1/3	204.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.081 Antwortzeit (Durchschnitt) 204.0s
#6	Claude Fable 5 medium	Anthropic	5.3	9.2	$3.165	1/3	53.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $3.165 Antwortzeit (Durchschnitt) 53.4s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)