Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

North Mini Code 5.3

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#95	Gemini 3.1 Flash Lite Preview high	Google	5.3	6.1	$2.310	1/3	127.6s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $2.310 Antwortzeit (Durchschnitt) 127.6s
#6	Claude Fable 5 medium	Anthropic	5.3	9.2	$3.165	1/3	53.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $3.165 Antwortzeit (Durchschnitt) 53.4s
#9	GPT-5.5 medium	OpenAI	5.3	9.0	$3.679	1/3	164.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $3.679 Antwortzeit (Durchschnitt) 164.1s
#136	Grok 4.20 Multi Agent Beta medium	X AI	2.9	5.0	$5.599	0/3	24.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $5.599 Antwortzeit (Durchschnitt) 24.7s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)