Modell-Ranking für Domänenspezifisch

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Domänenspezifisch am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Domänenspezifisch-Score

4.8

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort314 Mit Fehlergrund Zeitüberschreitung34 Mit Fehlergrund Zusätzliche Formatierung12 Mit Fehlergrund API-Fehler6 Mit Fehlergrund Keine Antwort5 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Domänenspezifisch-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#80	Mimo V2 Omni medium	Xiaomi	3.0	6.7	0/3	47.9s
#81	Mercury 2 medium	Inception	2.9	6.6	0/3	6.48s
#84	Grok 4.20 Multi Agent Beta medium	X AI	2.9	6.6	0/3	24.7s
#87	Gemini 3.1 Flash Lite minimal	Google	2.9	6.4	0/3	1.02s
#88	Qwen3.7 Plus none	Qwen	3.0	6.4	0/3	868ms
#90	Gemini 3.1 Flash Lite none	Google	2.9	6.4	0/3	762ms
#91	GPT-5.5 none	OpenAI	2.9	6.4	0/3	1.31s
#93	Qwen3.6 Plus Preview medium	Qwen	3.0	6.3	0/3	22.1s
#98	GLM 5 none	Z.ai	3.0	6.1	0/3	2.24s
#99	gpt-oss-120b medium	OpenAI	2.9	6.1	0/3	50.9s
#100	Grok Build 0.1 none	X AI	3.6	6.0	0/3	103.7s
#102	Gemma 4 26B A4B none	Google	3.6	6.0	0/3	2.49s
#103	DeepSeek V4 Pro high	DeepSeek	2.9	6.0	0/3	205.7s
#105	Nemotron 3 Super medium	NVIDIA	2.9	5.8	0/3	16.2s
#106	Grok 4.20 Beta none	X AI	3.0	5.8	0/3	611ms

Domänenspezifisch-Ranking

Top-Modelle nach Domänenspezifisch-Score

Domänenspezifisch-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)