Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

North Mini Code 5.3

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#167	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.6	3.5	$0.000	0/3	489ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 489ms
#169	LFM2-24B-A2B none	Liquid	5.9	2.4	$0.001	1/3	287ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 287ms
#143	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.001	0/3	4.95s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 4.95s
#158	Hy3 preview none	Tencent	3.6	4.3	$0.003	0/3	17.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 17.6s
#163	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.003	0/3	357ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 357ms
#98	Gemma 4 31B none	Google	7.7	6.1	$0.004	2/3	3.22s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 3.22s
#121	Gemma 4 26B A4B none	Google	3.6	5.5	$0.004	0/3	2.49s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 2.49s
#141	GLM 4.7 Flash none	Z.ai	7.7	4.9	$0.004	2/3	744ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 744ms
#97	Qwen3.5-Flash none	Qwen	7.7	6.1	$0.005	2/3	905ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.005 Antwortzeit (Durchschnitt) 905ms
#147	Ling-2.6-1T none	Inclusionai	3.0	4.7	$0.005	0/3	1.04s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.005 Antwortzeit (Durchschnitt) 1.04s
#135	Qwen3.5-9B none	Qwen	3.0	5.1	$0.006	0/3	464ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.006 Antwortzeit (Durchschnitt) 464ms
#139	GPT-4o-mini none	OpenAI	3.0	5.0	$0.006	0/3	637ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.006 Antwortzeit (Durchschnitt) 637ms
#142	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.007	0/3	6.23s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 6.23s
#134	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.007	0/3	756ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 756ms
#129	Mistral Small 4 none	Mistral	5.3	5.1	$0.007	1/3	367ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 367ms

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)