Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Gesamtkosten ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Grok 4.20 Multi Agent Beta 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort325 Mit Fehlergrund Zeitüberschreitung36 Mit Fehlergrund Zusätzliche Formatierung13 Mit Fehlergrund Keine Antwort6 Mit Fehlergrund API-Fehler5 Mit Fehlergrund Anweisungen nicht befolgt1

169/169

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#84	Gemini 3.1 Flash Lite Preview none	Google	5.3	6.4	$0.018	1/3	942ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.018 Antwortzeit (Durchschnitt) 942ms
#126	DeepSeek V3.2 none	DeepSeek	2.9	5.3	$0.017	0/3	4.17s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 4.17s
#119	MiMo-V2.5-Pro none	Xiaomi	5.3	5.5	$0.017	1/3	877ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 877ms
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	5.3	5.8	$0.016	1/3	1.17s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 1.17s
#93	Gemini 2.5 Flash none	Google	5.9	6.2	$0.016	1/3	495ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 495ms
#104	Qwen3.5-27B none	Qwen	3.0	5.9	$0.015	0/3	540ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 540ms
#102	Qwen3.6 Flash none	Qwen	5.3	6.0	$0.015	1/3	1.11s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 1.11s
#94	Gemini 3.1 Flash Lite minimal	Google	2.9	6.1	$0.013	0/3	1.02s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 1.02s
#96	Gemini 3.1 Flash Lite none	Google	2.9	6.1	$0.013	0/3	762ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 762ms
#78	gpt-oss-120b medium	OpenAI	2.9	6.7	$0.013	0/3	50.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 50.9s
#103	Qwen3.5-35B-A3B none	Qwen	7.7	5.9	$0.012	2/3	485ms
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.012 Antwortzeit (Durchschnitt) 485ms
#151	Mercury 2 none	Inception	5.3	4.6	$0.011	1/3	534ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.011 Antwortzeit (Durchschnitt) 534ms
#145	GPT-5.4 Nano none	OpenAI	2.9	4.8	$0.011	0/3	926ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.011 Antwortzeit (Durchschnitt) 926ms
#164	gpt-oss-120b none	OpenAI	3.0	4.0	$0.010	0/3	35.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 35.0s
#130	Qwen3 Coder Next none	Qwen	5.3	5.1	$0.009	1/3	962ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 962ms

Domänenspezifisch-Ranking

Modelle filtern

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)