Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Grok 4.20 Multi Agent Beta 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#4	GPT-5.5 low	OpenAI	5.3	9.3	$0.907	1/3	28.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.907 Antwortzeit (Durchschnitt) 28.1s
#35	Kimi K2.6 medium	Moonshot AI	5.3	7.8	$0.889	1/3	202.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.889 Antwortzeit (Durchschnitt) 202.4s
#69	Grok 4.20 Beta medium	X AI	5.3	6.8	$0.750	1/3	21.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.750 Antwortzeit (Durchschnitt) 21.3s
#10	GPT-5.3-Codex medium	OpenAI	5.9	8.9	$0.740	1/3	64.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 64.3s
#73	Mimo V2 Omni medium	Xiaomi	3.0	6.8	$0.683	0/3	47.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 47.9s
#13	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$0.679	2/3	1.17s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.679 Antwortzeit (Durchschnitt) 1.17s
#2	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.667	3/3	15.3s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.667 Antwortzeit (Durchschnitt) 15.3s
#37	Grok 4.3 medium	X AI	5.3	7.7	$0.614	1/3	181.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.614 Antwortzeit (Durchschnitt) 181.7s
#53	Grok 4.20 medium	X AI	5.3	7.3	$0.609	1/3	27.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.609 Antwortzeit (Durchschnitt) 27.0s
#36	Qwen3.5-122B-A10B medium	Qwen	2.9	7.7	$0.588	0/3	63.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.588 Antwortzeit (Durchschnitt) 63.4s
#65	Kimi K2.7 Code medium	Moonshot AI	5.3	7.0	$0.583	1/3	213.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.583 Antwortzeit (Durchschnitt) 213.3s
#8	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.582	2/3	5.24s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.582 Antwortzeit (Durchschnitt) 5.24s
#22	GPT-5.2 medium	OpenAI	5.9	8.4	$0.548	1/3	77.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 77.8s
#160	Grok Build 0.1 none	X AI	3.6	4.2	$0.547	0/3	103.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 103.7s
#57	Claude Opus 4.8 none	Anthropic	5.3	7.2	$0.539	1/3	1.66s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.539 Antwortzeit (Durchschnitt) 1.66s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)