Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Grok 4.20 Multi Agent Beta 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#156	Laguna Xs.2 medium	Poolside	4.1	4.3	$0.000	0/3	11.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 11.1s
#162	Laguna Xs.2 none	Poolside	5.3	4.0	$0.000	1/3	371ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 371ms
#166	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.6	$0.000	0/3	56.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 56.7s
#167	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.6	3.5	$0.000	0/3	489ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 489ms

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)