Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

North Mini Code 5.3

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#10	GPT-5.3-Codex medium	OpenAI	5.9	8.9	$0.740	1/3	64.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 64.3s
#69	Grok 4.20 Beta medium	X AI	5.3	6.8	$0.750	1/3	21.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.750 Antwortzeit (Durchschnitt) 21.3s
#35	Kimi K2.6 medium	Moonshot AI	5.3	7.8	$0.889	1/3	202.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.889 Antwortzeit (Durchschnitt) 202.4s
#4	GPT-5.5 low	OpenAI	5.3	9.3	$0.907	1/3	28.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.907 Antwortzeit (Durchschnitt) 28.1s
#42	Grok Build 0.1 medium	X AI	5.3	7.6	$0.927	1/3	158.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.927 Antwortzeit (Durchschnitt) 158.0s
#11	Qwen3.6 Max Preview medium	Qwen	2.9	8.9	$0.960	0/3	95.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.960 Antwortzeit (Durchschnitt) 95.9s
#7	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.054	2/3	32.7s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $1.054 Antwortzeit (Durchschnitt) 32.7s
#66	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $1.079 Antwortzeit (Durchschnitt) 10.6s
#12	Claude Opus 4.8 medium	Anthropic	5.3	8.8	$1.107	1/3	14.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.107 Antwortzeit (Durchschnitt) 14.2s
#1	Gemini 3.5 Flash high	Google	7.6	9.8	$1.115	2/3	14.1s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $1.115 Antwortzeit (Durchschnitt) 14.1s
#63	Step 3.7 Flash high	Stepfun	4.1	7.1	$1.148	0/3	149.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.148 Antwortzeit (Durchschnitt) 149.6s
#17	GPT-5.4 medium	OpenAI	5.3	8.5	$1.210	1/3	74.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.210 Antwortzeit (Durchschnitt) 74.3s
#31	Claude Sonnet 4.6 medium	Anthropic	2.9	7.8	$1.418	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.418 Antwortzeit (Durchschnitt) 0ms
#83	Gemini 3.1 Flash Lite high	Google	3.6	6.5	$2.044	0/3	139.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $2.044 Antwortzeit (Durchschnitt) 139.9s
#38	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$2.053	0/3	83.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $2.053 Antwortzeit (Durchschnitt) 83.4s

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)