Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Qwen3.6 Max Preview 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort314 Mit Fehlergrund Zeitüberschreitung34 Mit Fehlergrund Zusätzliche Formatierung12 Mit Fehlergrund API-Fehler6 Mit Fehlergrund Keine Antwort5 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#146	Laguna Xs.2 none	Poolside	5.3	4.8	1/3	371ms
#150	Qwen3 Coder Next medium	Qwen	5.3	4.6	1/3	638ms
#151	Trinity Large Preview none	Arcee AI	5.3	4.6	1/3	877ms
#152	MiMo-V2-Flash none	Xiaomi	5.3	4.6	1/3	564ms
#155	Mercury 2 none	Inception	5.3	4.5	1/3	534ms
#157	Grok 4.1 Fast none	X AI	5.9	4.4	1/3	1.06s
#160	LFM2-24B-A2B none	Liquid	5.9	4.2	1/3	287ms
#2	Gemini 3.5 Flash high	Google	7.6	9.6	2/3	14.1s
#3	Gemini 3.5 Flash low	Google	7.7	9.4	2/3	3.39s
#4	Gemini 3.1 Pro Preview medium	Google	7.7	9.4	2/3	32.7s
#7	Gemini 3.5 Flash medium	Google	7.7	9.0	2/3	5.24s
#8	Claude Opus 4.7 none	Anthropic	7.7	8.9	2/3	1.19s
#11	Claude Opus 4.7 medium	Anthropic	7.7	8.7	2/3	1.17s
#20	Gemini 3.5 Flash none	Google	7.6	8.1	2/3	10.6s
#22	Step 3.7 Flash medium	Stepfun	7.7	8.0	2/3	48.3s

←

1 9 10 11

→

Domänenspezifisch-Ranking

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)