Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#17	GLM 5 medium	Z.ai	10.0	8.3	1/1	29.0s
#18	Qwen3.7 Plus medium	Qwen	10.0	8.2	1/1	65.2s
#19	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.2	1/1	37.7s
#21	GPT-5.4 medium	OpenAI	10.0	8.0	1/1	20.6s
#22	Step 3.7 Flash medium	Stepfun	10.0	8.0	1/1	9.06s
#23	GLM 5 Turbo medium	Z.ai	10.0	8.0	1/1	13.9s
#24	GPT-5.2 Chat none	OpenAI	10.0	7.9	1/1	9.12s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	1/1	46.8s
#26	Qwen3.6 Plus medium	Qwen	10.0	7.9	1/1	35.0s
#28	Gemini 2.5 Flash medium	Google	10.0	7.8	1/1	28.4s
#29	Qwen3.5-122B-A10B medium	Qwen	10.0	7.8	1/1	107.8s
#30	Qwen3.5-27B medium	Qwen	10.0	7.8	1/1	164.0s
#31	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	1/1	76.6s
#33	Hy3 preview medium	Tencent	10.0	7.7	1/1	46.0s
#36	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.6	1/1	92.4s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)