Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#76	Kimi K2.5 medium	Moonshot AI	10.0	6.8	1/1	71.4s
#77	Claude Sonnet 4.6 none	Anthropic	9.5	6.8	1/1	23.8s
#80	Mimo V2 Omni medium	Xiaomi	10.0	6.7	1/1	25.9s
#81	Mercury 2 medium	Inception	10.0	6.6	1/1	3.28s
#82	Hy3 preview high	Tencent	10.0	6.6	1/1	113.1s
#86	Grok 4.1 Fast medium	X AI	10.0	6.5	1/1	37.6s
#88	Qwen3.7 Plus none	Qwen	10.0	6.4	1/1	29.4s
#89	Hy3 preview low	Tencent	10.0	6.4	1/1	78.7s
#93	Qwen3.6 Plus Preview medium	Qwen	10.0	6.3	1/1	35.0s
#94	GPT-5 Nano medium	OpenAI	10.0	6.3	1/1	66.0s
#99	gpt-oss-120b medium	OpenAI	10.0	6.1	1/1	31.2s
#103	DeepSeek V4 Pro high	DeepSeek	10.0	6.0	1/1	65.0s
#105	Nemotron 3 Super medium	NVIDIA	10.0	5.8	1/1	87.8s
#113	DeepSeek V4 Pro none	DeepSeek	9.5	5.7	1/1	25.5s
#16	Gemini 3 Flash Preview low	Google	3.0	8.4	0/1	3.27s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)