Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

GLM 5 Turbo 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#113	Qwen3.6 Plus Preview medium	Qwen	3.0	5.8	$0.000	0/3	22.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 22.1s
#127	MiniMax M2.7 medium	Minimax	3.0	5.2	$0.104	0/3	19.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.104 Antwortzeit (Durchschnitt) 19.0s
#131	North Mini Code none	Cohere	3.0	5.1	$0.000	0/3	14.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 14.7s
#132	Hunter Alpha medium	OpenRouter	3.0	5.1	$0.000	0/3	10.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 10.5s
#134	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.007	0/3	756ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 756ms
#135	Qwen3.5-9B none	Qwen	3.0	5.1	$0.006	0/3	464ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.006 Antwortzeit (Durchschnitt) 464ms
#139	GPT-4o-mini none	OpenAI	3.0	5.0	$0.006	0/3	637ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.006 Antwortzeit (Durchschnitt) 637ms
#143	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.001	0/3	4.95s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 4.95s
#147	Ling-2.6-1T none	Inclusionai	3.0	4.7	$0.005	0/3	1.04s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.005 Antwortzeit (Durchschnitt) 1.04s
#149	Grok 4.20 Beta none	X AI	3.0	4.7	$0.087	0/3	611ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 611ms
#152	Elephant Alpha none	Openrouter	3.0	4.6	$0.000	0/3	927ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 927ms
#153	Elephant Alpha medium	Openrouter	3.0	4.5	$0.000	0/3	925ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 925ms
#155	Grok 4.20 none	X AI	3.0	4.4	$0.057	0/3	687ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 687ms
#163	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.003	0/3	357ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 357ms
#164	gpt-oss-120b none	OpenAI	3.0	4.0	$0.010	0/3	35.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 35.0s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)