Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

GLM 5 Turbo 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#81	Qwen3.6 27B medium	Qwen	2.9	6.6	$0.440	0/3	73.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.440 Antwortzeit (Durchschnitt) 73.4s
#90	GPT-5.5 none	OpenAI	2.9	6.3	$0.231	0/3	1.31s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.231 Antwortzeit (Durchschnitt) 1.31s
#94	Gemini 3.1 Flash Lite minimal	Google	2.9	6.1	$0.013	0/3	1.02s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 1.02s
#96	Gemini 3.1 Flash Lite none	Google	2.9	6.1	$0.013	0/3	762ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 762ms
#116	GLM 5.1 none	Z.ai	2.9	5.6	$0.058	0/3	1.99s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.058 Antwortzeit (Durchschnitt) 1.99s
#126	DeepSeek V3.2 none	DeepSeek	2.9	5.3	$0.017	0/3	4.17s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 4.17s
#136	Grok 4.20 Multi Agent Beta medium	X AI	2.9	5.0	$5.599	0/3	24.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $5.599 Antwortzeit (Durchschnitt) 24.7s
#166	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.6	$0.000	0/3	56.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 56.7s
#32	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.8	$0.068	0/3	4.21s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 4.21s
#38	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$2.053	0/3	83.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $2.053 Antwortzeit (Durchschnitt) 83.4s
#50	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.4	$0.044	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 0ms
#60	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.023	0/3	868ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.023 Antwortzeit (Durchschnitt) 868ms
#73	Mimo V2 Omni medium	Xiaomi	3.0	6.8	$0.683	0/3	47.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 47.9s
#101	GLM 5 none	Z.ai	3.0	6.0	$0.027	0/3	2.24s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.027 Antwortzeit (Durchschnitt) 2.24s
#104	Qwen3.5-27B none	Qwen	3.0	5.9	$0.015	0/3	540ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 540ms

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)