AI Benchy Bestenliste

Name: AI BENCHY Modell-Benchmark-Ergebnisse
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-24 Bewertete Modelle: 222

222/222

Rang	Modell	Punktzahl	Unternehmen	Gesamtkosten	Antwortzeit (Durchschnitt)
#109#109	Qwen3.5-27Bnone	6.5	Qwen	$0.058 ↓	4.76s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 14 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 40.9% Instabile Tests 2 Eingabe-Token 102,316 Ausgabe-Token 24,321 Denk-Token 0 Antwortzeit (Durchschnitt) 4.76s Antwortzeit (Gesamt) 104.71s Antwortzeit (Maximum) 69.46s Falsche Antwort: 12 Anweisungen nicht befolgt: 2 Anti-KI-Tricks : 4.8 Programmierung : 5.8 Kombiniert : 6.4 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.0 Allgemeine Intelligenz : 5.0 Befolgung von Anweisungen : 6.3 Rätsellösen : 6.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#110#110	Gemini 3.1 Flash Lite Previewlow	6.5	Google	$0.646	16.70s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 59.1% Instabile Tests 0 Eingabe-Token 110,185 Ausgabe-Token 14,717 Denk-Token 397,483 Antwortzeit (Durchschnitt) 16.70s Antwortzeit (Gesamt) 367.47s Antwortzeit (Maximum) 309.35s Falsche Antwort: 7 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.3 Programmierung : 5.5 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#111#111	Gemini 3.1 Flash Litelow	6.5	Google	$0.621	16.26s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 59.1% Instabile Tests 2 Eingabe-Token 94,224 Ausgabe-Token 7,759 Denk-Token 390,126 Antwortzeit (Durchschnitt) 16.26s Antwortzeit (Gesamt) 357.64s Antwortzeit (Maximum) 318.02s Falsche Antwort: 9 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 7.3 Programmierung : 5.5 Kombiniert : 3.2 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#112#112	Gemini 3.1 Flash Lite Previewnone	6.4	Google	$0.052	1.58s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 57.6% Instabile Tests 1 Eingabe-Token 120,942 Ausgabe-Token 14,292 Denk-Token 0 Antwortzeit (Durchschnitt) 1.58s Antwortzeit (Gesamt) 34.72s Antwortzeit (Maximum) 9.27s Falsche Antwort: 7 Anweisungen nicht befolgt: 2 Keine Antwort: 1 Anti-KI-Tricks : 7.5 Programmierung : 5.5 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#113#113	Qwen3.5 Plus 2026-02-15none	6.4	Qwen	$0.073 ↓	9.85s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 12 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 48.5% Instabile Tests 2 Eingabe-Token 102,646 Ausgabe-Token 29,370 Denk-Token 0 Antwortzeit (Durchschnitt) 9.85s Antwortzeit (Gesamt) 157.63s Antwortzeit (Maximum) 123.00s Falsche Antwort: 12 Anti-KI-Tricks : 4.8 Programmierung : 4.3 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.4 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#115#115	Ring-2.6-1Tmedium	6.3	Inclusionai	$0.103 ↑	68.74s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 60.6% Instabile Tests 4 Eingabe-Token 113,604 Ausgabe-Token 123,079 Denk-Token 42,754 Antwortzeit (Durchschnitt) 68.74s Antwortzeit (Gesamt) 1374.86s Antwortzeit (Maximum) 304.19s Falsche Antwort: 6 API-Fehler: 2 Anweisungen nicht befolgt: 2 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 5.3 Kombiniert : 7.3 Datenanalyse und -extraktion : 6.5 Domänenspezifisch : 3.5 Allgemeine Intelligenz : 4.1 Befolgung von Anweisungen : 9.8 Rätsellösen : 5.9 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#117#117	Gemma 4 31Bmedium	6.3	Google	$0.102 ↓	75.38s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 68.2% Instabile Tests 2 Eingabe-Token 94,992 Ausgabe-Token 34,468 Denk-Token 223,278 Antwortzeit (Durchschnitt) 75.38s Antwortzeit (Gesamt) 1507.52s Antwortzeit (Maximum) 437.40s API-Fehler: 2 Zeitüberschreitung: 2 Falsche Antwort: 2 Ungültiger Werkzeugaufruf: 1 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 4.3 Kombiniert : 2.9 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 9.9 Werkzeugaufrufe : 3.0 Allgemeinwissen : 3.0
#118#118	LongCat 2.0none	6.3	Meituan	$0.044	5.18s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 15 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 36.4% Instabile Tests 2 Eingabe-Token 108,743 Ausgabe-Token 9,372 Denk-Token 0 Antwortzeit (Durchschnitt) 5.18s Antwortzeit (Gesamt) 113.95s Antwortzeit (Maximum) 48.38s Falsche Antwort: 14 Zusätzliche Formatierung: 1 Anti-KI-Tricks : 4.8 Programmierung : 5.5 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.0 Allgemeine Intelligenz : 5.0 Befolgung von Anweisungen : 6.5 Rätsellösen : 4.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#119#119	Claude Sonnet 5none	6.3	Anthropic	$0.548	6.04s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 14 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 45.5% Instabile Tests 4 Eingabe-Token 161,035 Ausgabe-Token 22,511 Denk-Token 0 Antwortzeit (Durchschnitt) 6.04s Antwortzeit (Gesamt) 132.85s Antwortzeit (Maximum) 33.39s Falsche Antwort: 7 Zusätzliche Formatierung: 4 Keine Antwort: 2 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 5.3 Programmierung : 4.6 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.7 Befolgung von Anweisungen : 6.4 Rätsellösen : 6.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#120#120	MiMo-V2-Flashmedium	6.3	Xiaomi	$0.043 ↑	20.11s
Modellkarte anzeigen Gesamttests 21 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 62.1% Instabile Tests 3 Eingabe-Token 40,111 Ausgabe-Token 12,476 Denk-Token 125,039 Antwortzeit (Durchschnitt) 20.11s Antwortzeit (Gesamt) 301.59s Antwortzeit (Maximum) 96.01s Falsche Antwort: 5 API-Fehler: 1 Zusätzliche Formatierung: 1 Anweisungen nicht befolgt: 1 Zeitüberschreitung: 1 Anti-KI-Tricks : 8.1 Programmierung : 6.0 Kombiniert : 4.9 Datenanalyse und -extraktion : 6.5 Domänenspezifisch : 5.9 Allgemeine Intelligenz : 4.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#121#121	Qwen3.5-Flashmedium	6.2	Qwen	$0.139 ↓	84.82s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 69.7% Instabile Tests 6 Eingabe-Token 118,499 Ausgabe-Token 12,284 Denk-Token 490,610 Antwortzeit (Durchschnitt) 84.82s Antwortzeit (Gesamt) 1781.22s Antwortzeit (Maximum) 515.38s Falsche Antwort: 4 Zeitüberschreitung: 3 API-Fehler: 1 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 3.7 Kombiniert : 6.4 Datenanalyse und -extraktion : 7.3 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 6.1 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#122#122	Gemma 4 31Bnone	6.2	Google	$0.020 ↓	5.34s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 12 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 48.5% Instabile Tests 1 Eingabe-Token 125,728 Ausgabe-Token 13,317 Denk-Token 0 Antwortzeit (Durchschnitt) 5.34s Antwortzeit (Gesamt) 106.82s Antwortzeit (Maximum) 29.95s Falsche Antwort: 9 API-Fehler: 2 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 6.5 Programmierung : 5.5 Kombiniert : 3.8 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 6.5 Rätsellösen : 6.5 Werkzeugaufrufe : 3.0 Allgemeinwissen : 3.0
#123#123	Seed-2.0-Litenone	6.2	Bytedance Seed	$0.066	4.40s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 14 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 43.9% Instabile Tests 4 Eingabe-Token 142,197 Ausgabe-Token 14,746 Denk-Token 0 Antwortzeit (Durchschnitt) 4.40s Antwortzeit (Gesamt) 96.84s Antwortzeit (Maximum) 44.58s Falsche Antwort: 13 Keine Antwort: 1 Anti-KI-Tricks : 3.0 Programmierung : 5.6 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.6 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 5.3 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#124#124	GPT-5.6 Lunalow	6.2	OpenAI	$0.249	5.04s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 12 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 56.1% Instabile Tests 5 Eingabe-Token 96,346 Ausgabe-Token 8,211 Denk-Token 17,227 Antwortzeit (Durchschnitt) 5.04s Antwortzeit (Gesamt) 110.88s Antwortzeit (Maximum) 19.44s Falsche Antwort: 10 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.3 Programmierung : 5.5 Kombiniert : 2.8 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.6 Allgemeine Intelligenz : 5.0 Befolgung von Anweisungen : 8.5 Rätsellösen : 7.6 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#125#125	Gemini 2.5 Flashnone	6.2	Google	$0.017	6.20s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 13 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 43.9% Instabile Tests 1 Eingabe-Token 39,877 Ausgabe-Token 1,890 Denk-Token 0 Antwortzeit (Durchschnitt) 6.20s Antwortzeit (Gesamt) 136.37s Antwortzeit (Maximum) 118.00s Falsche Antwort: 12 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 3.0 Programmierung : 5.5 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.9 Allgemeine Intelligenz : 5.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#126#126	Qwen3.5-35B-A3Bmedium	6.2	Qwen	$0.837 ↓	112.47s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 66.7% Instabile Tests 6 Eingabe-Token 130,388 Ausgabe-Token 40,630 Denk-Token 786,040 Antwortzeit (Durchschnitt) 112.47s Antwortzeit (Gesamt) 2474.28s Antwortzeit (Maximum) 950.25s Zeitüberschreitung: 5 Keine Antwort: 2 Falsche Antwort: 2 API-Fehler: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 5.9 Kombiniert : 3.8 Datenanalyse und -extraktion : 7.3 Domänenspezifisch : 4.1 Allgemeine Intelligenz : 2.8 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#127#127	Gemini 3.1 Flash Liteminimal	6.1	Google	$0.047	1.86s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 12 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 51.5% Instabile Tests 3 Eingabe-Token 119,065 Ausgabe-Token 11,118 Denk-Token 0 Antwortzeit (Durchschnitt) 1.86s Antwortzeit (Gesamt) 40.88s Antwortzeit (Maximum) 12.97s Falsche Antwort: 8 Anweisungen nicht befolgt: 3 Keine Antwort: 1 Anti-KI-Tricks : 8.3 Programmierung : 5.5 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 4.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 6.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#128#128	gpt-oss-120bmedium	6.1	OpenAI	$0.019 ↓	21.91s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 13 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 50.0% Instabile Tests 5 Eingabe-Token 108,747 Ausgabe-Token 29,772 Denk-Token 68,044 Antwortzeit (Durchschnitt) 21.91s Antwortzeit (Gesamt) 328.70s Antwortzeit (Maximum) 68.16s Falsche Antwort: 9 Anweisungen nicht befolgt: 3 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 6.7 Programmierung : 5.9 Kombiniert : 6.5 Datenanalyse und -extraktion : 6.4 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 4.3 Befolgung von Anweisungen : 9.9 Rätsellösen : 5.3 Werkzeugaufrufe : 9.8 Allgemeinwissen : 3.0
#129#129	Gemini 3.1 Flash Litenone	6.1	Google	$0.046	1.75s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 13 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 50.0% Instabile Tests 4 Eingabe-Token 118,050 Ausgabe-Token 10,723 Denk-Token 0 Antwortzeit (Durchschnitt) 1.75s Antwortzeit (Gesamt) 38.60s Antwortzeit (Maximum) 16.25s Falsche Antwort: 11 Anweisungen nicht befolgt: 1 Keine Antwort: 1 Anti-KI-Tricks : 7.5 Programmierung : 5.5 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 4.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 6.3 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#131#131	Qwen3.6 Flashnone	6.1	Qwen	$0.062 ↓	3.74s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 15 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 34.9% Instabile Tests 1 Eingabe-Token 139,788 Ausgabe-Token 30,947 Denk-Token 0 Antwortzeit (Durchschnitt) 3.74s Antwortzeit (Gesamt) 82.38s Antwortzeit (Maximum) 48.79s Falsche Antwort: 12 Ungültiger Werkzeugaufruf: 2 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 3.1 Programmierung : 5.4 Kombiniert : 3.8 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 6.3 Rätsellösen : 3.5 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#132#132	Qwen3.5-Flashnone	6.1	Qwen	$0.073 ↓	25.28s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 14 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 39.4% Instabile Tests 2 Eingabe-Token 282,347 Ausgabe-Token 209,201 Denk-Token 0 Antwortzeit (Durchschnitt) 25.28s Antwortzeit (Gesamt) 556.24s Antwortzeit (Maximum) 480.96s Falsche Antwort: 13 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 3.5 Programmierung : 5.5 Kombiniert : 2.9 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 6.3 Rätsellösen : 3.1 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#133#133	Qwen3.5 Plus 2026-04-20none	6.1	Qwen	$0.122 ↓	13.56s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 14 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 43.9% Instabile Tests 4 Eingabe-Token 94,468 Ausgabe-Token 51,487 Denk-Token 0 Antwortzeit (Durchschnitt) 13.56s Antwortzeit (Gesamt) 298.31s Antwortzeit (Maximum) 206.05s Falsche Antwort: 12 Anweisungen nicht befolgt: 2 Anti-KI-Tricks : 4.8 Programmierung : 3.9 Kombiniert : 6.4 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.8 Befolgung von Anweisungen : 6.2 Rätsellösen : 6.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#134#134	Qwen3.5-35B-A3Bnone	6.1	Qwen	$0.106 ↓	12.72s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 15 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 43.9% Instabile Tests 4 Eingabe-Token 134,521 Ausgabe-Token 86,614 Denk-Token 0 Antwortzeit (Durchschnitt) 12.72s Antwortzeit (Gesamt) 279.90s Antwortzeit (Maximum) 209.15s Falsche Antwort: 12 Anweisungen nicht befolgt: 2 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 3.4 Programmierung : 5.5 Kombiniert : 3.8 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 6.5 Befolgung von Anweisungen : 6.3 Rätsellösen : 3.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#135#135	GPT-5 Nanomedium	6.1	OpenAI	$0.114	54.87s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 13 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 56.1% Instabile Tests 8 Eingabe-Token 94,935 Ausgabe-Token 12,042 Denk-Token 261,056 Antwortzeit (Durchschnitt) 54.87s Antwortzeit (Gesamt) 822.99s Antwortzeit (Maximum) 227.89s Falsche Antwort: 9 Anweisungen nicht befolgt: 2 Keine Antwort: 1 Zeitüberschreitung: 1 Anti-KI-Tricks : 6.5 Programmierung : 7.0 Kombiniert : 6.4 Datenanalyse und -extraktion : 3.7 Domänenspezifisch : 5.2 Allgemeine Intelligenz : 4.1 Befolgung von Anweisungen : 9.8 Rätsellösen : 5.3 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#136#136	Nemotron 3 Ultranone	6.1	NVIDIA	$0.072 ↕	3.87s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 14 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 42.4% Instabile Tests 2 Eingabe-Token 101,275 Ausgabe-Token 9,474 Denk-Token 0 Antwortzeit (Durchschnitt) 3.87s Antwortzeit (Gesamt) 85.15s Antwortzeit (Maximum) 37.50s Falsche Antwort: 12 API-Fehler: 1 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 3.5 Programmierung : 5.5 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 5.9 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#139#139	GPT-5.6 Terranone	6.0	OpenAI	$0.349	1.65s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 14 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 42.4% Instabile Tests 3 Eingabe-Token 102,259 Ausgabe-Token 6,203 Denk-Token 0 Antwortzeit (Durchschnitt) 1.65s Antwortzeit (Gesamt) 36.28s Antwortzeit (Maximum) 10.07s Falsche Antwort: 11 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Keine Antwort: 1 Anti-KI-Tricks : 4.8 Programmierung : 5.5 Kombiniert : 2.9 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.0 Befolgung von Anweisungen : 8.5 Rätsellösen : 5.3 Werkzeugaufrufe : 9.6 Allgemeinwissen : 3.0
#141#141	Mimo V2 Omnimedium	5.9	Xiaomi	$0.683 ↓	41.16s
Modellkarte anzeigen Gesamttests 21 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 53.0% Instabile Tests 3 Eingabe-Token 37,007 Ausgabe-Token 1,952 Denk-Token 357,306 Antwortzeit (Durchschnitt) 41.16s Antwortzeit (Gesamt) 823.26s Antwortzeit (Maximum) 299.23s Falsche Antwort: 5 Anweisungen nicht befolgt: 2 Keine Antwort: 2 API-Fehler: 1 Zusätzliche Formatierung: 1 Anti-KI-Tricks : 10.0 Programmierung : 3.3 Kombiniert : 5.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.0 Allgemeine Intelligenz : 5.4 Befolgung von Anweisungen : 8.3 Rätsellösen : 5.9 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#142#142	Hy3 previewhigh	5.9	Tencent	$0.048 ↕	56.57s
Modellkarte anzeigen Gesamttests 21 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 53.0% Instabile Tests 2 Eingabe-Token 25,987 Ausgabe-Token 216,719 Denk-Token 0 Antwortzeit (Durchschnitt) 56.57s Antwortzeit (Gesamt) 848.59s Antwortzeit (Maximum) 149.94s API-Fehler: 7 Falsche Antwort: 3 Anti-KI-Tricks : 6.4 Programmierung : 5.3 Kombiniert : 5.0 Datenanalyse und -extraktion : 6.5 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 3.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#143#143	GPT-5.4 Mininone	5.9	OpenAI	$0.095	1.53s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 16 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 33.3% Instabile Tests 3 Eingabe-Token 79,067 Ausgabe-Token 7,880 Denk-Token 0 Antwortzeit (Durchschnitt) 1.53s Antwortzeit (Gesamt) 33.74s Antwortzeit (Maximum) 9.92s Falsche Antwort: 13 Anweisungen nicht befolgt: 3 Anti-KI-Tricks : 3.1 Programmierung : 5.5 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.5 Allgemeine Intelligenz : 4.8 Befolgung von Anweisungen : 6.3 Rätsellösen : 5.4 Werkzeugaufrufe : 3.0 Allgemeinwissen : 3.0
#145#145	Kimi K2.6none	5.8	Moonshot AI	$0.184 ↓	19.58s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 15 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 34.9% Instabile Tests 2 Eingabe-Token 116,970 Ausgabe-Token 30,253 Denk-Token 0 Antwortzeit (Durchschnitt) 19.58s Antwortzeit (Gesamt) 430.85s Antwortzeit (Maximum) 238.89s Falsche Antwort: 11 Anweisungen nicht befolgt: 3 Keine Antwort: 1 Anti-KI-Tricks : 4.6 Programmierung : 5.5 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.4 Befolgung von Anweisungen : 6.5 Rätsellösen : 3.1 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0

←

1 3 4 5 8

→

Schnellvergleich

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

AI Benchy Bestenliste

Modelle filtern

Schnellvergleich