Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort314 Mit Fehlergrund Zeitüberschreitung34 Mit Fehlergrund Zusätzliche Formatierung12 Mit Fehlergrund API-Fehler6 Mit Fehlergrund Keine Antwort5 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#44	Gemini 3.1 Flash Lite medium	Google	2.9	7.5	0/3	3.16s
#45	GPT-5.4 Mini medium	OpenAI	4.1	7.5	0/3	65.3s
#52	Claude Sonnet 4.6 medium	Anthropic	2.9	7.4	0/3	0ms
#53	Gemini 3.1 Flash Lite high	Google	3.6	7.3	0/3	139.9s
#54	GPT-5 Mini medium	OpenAI	3.6	7.3	0/3	44.6s
#63	GPT-5.3 Chat none	OpenAI	3.5	7.2	0/3	13.0s
#66	Qwen3.5-35B-A3B medium	Qwen	4.1	7.1	0/3	88.3s
#69	Claude Opus 4.6 medium	Anthropic	3.0	7.0	0/3	83.4s
#71	Step 3.7 Flash high	Stepfun	4.1	7.0	0/3	149.6s
#72	DeepSeek V3.2 medium	DeepSeek	2.9	7.0	0/3	24.3s
#73	Seed-2.0-Mini medium	Bytedance Seed	3.0	6.9	0/3	0ms
#75	Ring-2.6-1T medium	Inclusionai	3.5	6.9	0/3	64.9s
#76	Kimi K2.5 medium	Moonshot AI	3.5	6.8	0/3	137.3s
#78	Qwen3.6 27B medium	Qwen	2.9	6.8	0/3	73.4s
#79	Hunter Alpha medium	OpenRouter	3.0	6.7	0/3	10.5s

Domänenspezifisch-Ranking

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)