Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

North Mini Code 5.3

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#49	Claude Opus 4.7 none	Anthropic	7.7	7.4	$0.505	2/3	1.19s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.505 Antwortzeit (Durchschnitt) 1.19s
#3	Qwen3.7 Max medium	Qwen	5.9	9.4	$0.523	1/3	24.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.523 Antwortzeit (Durchschnitt) 24.9s
#27	GPT-5.4 Mini medium	OpenAI	4.1	8.0	$0.526	0/3	65.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.526 Antwortzeit (Durchschnitt) 65.3s
#29	Qwen3.5-27B medium	Qwen	5.3	7.9	$0.536	1/3	79.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.536 Antwortzeit (Durchschnitt) 79.5s
#57	Claude Opus 4.8 none	Anthropic	5.3	7.2	$0.539	1/3	1.66s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.539 Antwortzeit (Durchschnitt) 1.66s
#160	Grok Build 0.1 none	X AI	3.6	4.2	$0.547	0/3	103.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 103.7s
#22	GPT-5.2 medium	OpenAI	5.9	8.4	$0.548	1/3	77.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 77.8s
#8	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.582	2/3	5.24s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.582 Antwortzeit (Durchschnitt) 5.24s
#65	Kimi K2.7 Code medium	Moonshot AI	5.3	7.0	$0.583	1/3	213.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.583 Antwortzeit (Durchschnitt) 213.3s
#36	Qwen3.5-122B-A10B medium	Qwen	2.9	7.7	$0.588	0/3	63.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.588 Antwortzeit (Durchschnitt) 63.4s
#53	Grok 4.20 medium	X AI	5.3	7.3	$0.609	1/3	27.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.609 Antwortzeit (Durchschnitt) 27.0s
#37	Grok 4.3 medium	X AI	5.3	7.7	$0.614	1/3	181.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.614 Antwortzeit (Durchschnitt) 181.7s
#2	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.667	3/3	15.3s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.667 Antwortzeit (Durchschnitt) 15.3s
#13	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$0.679	2/3	1.17s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.679 Antwortzeit (Durchschnitt) 1.17s
#73	Mimo V2 Omni medium	Xiaomi	3.0	6.8	$0.683	0/3	47.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 47.9s

←

1 9 10 11 12

→

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)