AI Benchy Bestenliste

Name: AI BENCHY Modell-Benchmark-Ergebnisse
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-24 Bewertete Modelle: 222

222/222

Rang	Modell	Punktzahl	Unternehmen	Gesamtkosten	Antwortzeit (Durchschnitt)
#71#71	Step 3.7 Flashlow	7.3	Stepfun	$0.454	20.68s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 68.2% Instabile Tests 5 Eingabe-Token 103,833 Ausgabe-Token 376,581 Denk-Token 0 Antwortzeit (Durchschnitt) 20.68s Antwortzeit (Gesamt) 455.01s Antwortzeit (Maximum) 124.75s Falsche Antwort: 8 Ungültiger Werkzeugaufruf: 1 Keine Antwort: 1 Anti-KI-Tricks : 8.7 Programmierung : 8.2 Kombiniert : 7.3 Datenanalyse und -extraktion : 7.3 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 3.4 Befolgung von Anweisungen : 9.8 Rätsellösen : 5.5 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#73#73	KAT-Coder-Pro V2.5high	7.2	Kwaipilot	$0.482	20.83s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 6 Eingabe-Token 106,076 Ausgabe-Token 9,071 Denk-Token 127,093 Antwortzeit (Durchschnitt) 20.83s Antwortzeit (Gesamt) 458.31s Antwortzeit (Maximum) 199.97s Falsche Antwort: 10 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 7.0 Programmierung : 6.4 Kombiniert : 7.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 5.1 Befolgung von Anweisungen : 9.9 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#75#75	Qwen3.7 Plusnone	7.2	Qwen	$0.106 ↓	12.09s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 50.0% Instabile Tests 0 Eingabe-Token 98,824 Ausgabe-Token 58,097 Denk-Token 0 Antwortzeit (Durchschnitt) 12.09s Antwortzeit (Gesamt) 265.89s Antwortzeit (Maximum) 206.03s Falsche Antwort: 10 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 6.5 Programmierung : 5.5 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.0 Allgemeine Intelligenz : 5.3 Befolgung von Anweisungen : 6.3 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#76#76	Qwen3.5-122B-A10Bmedium	7.1	Qwen	$1.046 ↓	64.16s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 71.2% Instabile Tests 4 Eingabe-Token 124,771 Ausgabe-Token 44,077 Denk-Token 443,141 Antwortzeit (Durchschnitt) 64.16s Antwortzeit (Gesamt) 1411.60s Antwortzeit (Maximum) 519.30s Falsche Antwort: 5 Zeitüberschreitung: 2 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 6.0 Kombiniert : 6.4 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 3.4 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#77#77	Grok 4.3medium	7.1	X AI	$0.779	47.45s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 68.2% Instabile Tests 4 Eingabe-Token 140,031 Ausgabe-Token 13,739 Denk-Token 227,682 Antwortzeit (Durchschnitt) 47.45s Antwortzeit (Gesamt) 1043.83s Antwortzeit (Maximum) 216.69s Falsche Antwort: 5 Anweisungen nicht befolgt: 2 Zusätzliche Formatierung: 1 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 5.9 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.4 Befolgung von Anweisungen : 9.8 Rätsellösen : 5.9 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#79#79	Grok 4.20medium	7.1	X AI	$0.777 ↓	29.47s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 4 Eingabe-Token 102,791 Ausgabe-Token 5,363 Denk-Token 253,977 Antwortzeit (Durchschnitt) 29.47s Antwortzeit (Gesamt) 648.35s Antwortzeit (Maximum) 199.66s Falsche Antwort: 6 Anweisungen nicht befolgt: 2 Zusätzliche Formatierung: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.2 Programmierung : 6.3 Kombiniert : 8.7 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 3.9 Befolgung von Anweisungen : 9.8 Rätsellösen : 7.7 Werkzeugaufrufe : 3.0 Allgemeinwissen : 3.0
#80#80	DeepSeek V3.2medium	7.0	DeepSeek	$0.078 ↑	68.62s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 65.2% Instabile Tests 7 Eingabe-Token 101,047 Ausgabe-Token 11,834 Denk-Token 117,014 Antwortzeit (Durchschnitt) 68.62s Antwortzeit (Gesamt) 1509.53s Antwortzeit (Maximum) 376.10s Falsche Antwort: 5 API-Fehler: 2 Zeitüberschreitung: 2 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.2 Programmierung : 6.0 Kombiniert : 7.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 3.4 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#81#81	Kimi K2.5medium	7.0	Moonshot AI	$0.600 ↑	99.00s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 12 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 65.2% Instabile Tests 8 Eingabe-Token 118,448 Ausgabe-Token 62,124 Denk-Token 165,243 Antwortzeit (Durchschnitt) 99.00s Antwortzeit (Gesamt) 1485.04s Antwortzeit (Maximum) 281.00s Falsche Antwort: 5 Anweisungen nicht befolgt: 2 Keine Antwort: 2 Zeitüberschreitung: 2 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 7.3 Programmierung : 6.1 Kombiniert : 6.7 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.5 Allgemeine Intelligenz : 6.5 Befolgung von Anweisungen : 10.0 Rätsellösen : 5.3 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#82#82	Mercury 2medium	7.0	Inception	$0.093	2.72s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 12 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 51.5% Instabile Tests 3 Eingabe-Token 109,572 Ausgabe-Token 10,313 Denk-Token 76,806 Antwortzeit (Durchschnitt) 2.72s Antwortzeit (Gesamt) 57.12s Antwortzeit (Maximum) 14.63s Falsche Antwort: 8 Anweisungen nicht befolgt: 3 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 6.9 Programmierung : 8.2 Kombiniert : 6.7 Datenanalyse und -extraktion : 7.3 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 4.8 Befolgung von Anweisungen : 10.0 Rätsellösen : 5.4 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#83#83	Gemini 3.5 Flashnone	7.0	Google	$1.079	9.93s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 7 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 74.2% Instabile Tests 3 Eingabe-Token 13,843 Ausgabe-Token 117,518 Denk-Token 0 Antwortzeit (Durchschnitt) 9.93s Antwortzeit (Gesamt) 178.68s Antwortzeit (Maximum) 64.36s API-Fehler: 4 Falsche Antwort: 3 Anti-KI-Tricks : 10.0 Programmierung : 8.8 Kombiniert : 3.0 Datenanalyse und -extraktion : 6.5 Domänenspezifisch : 7.6 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.8 Rätsellösen : 10.0 Werkzeugaufrufe : 3.0 Allgemeinwissen : 2.8
#85#85	KAT-Coder-Pro V2.5medium	6.9	Kwaipilot	$0.467	24.04s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 7 Eingabe-Token 87,907 Ausgabe-Token 7,213 Denk-Token 128,251 Antwortzeit (Durchschnitt) 24.04s Antwortzeit (Gesamt) 528.92s Antwortzeit (Maximum) 257.00s Falsche Antwort: 9 API-Fehler: 1 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 8.2 Programmierung : 7.8 Kombiniert : 6.4 Datenanalyse und -extraktion : 7.3 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 4.7 Befolgung von Anweisungen : 9.9 Rätsellösen : 5.9 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#86#86	DeepSeek V4 Pronone	6.9	DeepSeek	$0.096	11.55s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 12 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 51.5% Instabile Tests 4 Eingabe-Token 148,069 Ausgabe-Token 35,551 Denk-Token 0 Antwortzeit (Durchschnitt) 11.55s Antwortzeit (Gesamt) 254.11s Antwortzeit (Maximum) 119.44s Falsche Antwort: 8 Anweisungen nicht befolgt: 2 Zusätzliche Formatierung: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 3.2 Programmierung : 5.6 Kombiniert : 7.9 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.0 Befolgung von Anweisungen : 6.3 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#87#87	GPT-5.6 Solnone	6.9	OpenAI	$0.524	2.16s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 59.1% Instabile Tests 3 Eingabe-Token 78,593 Ausgabe-Token 4,357 Denk-Token 0 Antwortzeit (Durchschnitt) 2.16s Antwortzeit (Gesamt) 47.62s Antwortzeit (Maximum) 12.81s Falsche Antwort: 10 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 8.3 Programmierung : 5.5 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.6 Allgemeine Intelligenz : 6.5 Befolgung von Anweisungen : 8.5 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#88#88	MiMo-V2.5-Promedium	6.9	Xiaomi	$0.187 ↓	33.92s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 66.7% Instabile Tests 5 Eingabe-Token 139,883 Ausgabe-Token 15,521 Denk-Token 130,992 Antwortzeit (Durchschnitt) 33.92s Antwortzeit (Gesamt) 746.19s Antwortzeit (Maximum) 197.54s Zusätzliche Formatierung: 3 Falsche Antwort: 3 Anweisungen nicht befolgt: 2 API-Fehler: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 6.2 Kombiniert : 6.9 Datenanalyse und -extraktion : 7.3 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.5 Befolgung von Anweisungen : 9.9 Rätsellösen : 6.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#89#89	Qwen3.6 Flashmedium	6.9	Qwen	$0.738 ↓	44.65s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 68.2% Instabile Tests 5 Eingabe-Token 129,041 Ausgabe-Token 20,026 Denk-Token 614,312 Antwortzeit (Durchschnitt) 44.65s Antwortzeit (Gesamt) 982.32s Antwortzeit (Maximum) 578.13s Falsche Antwort: 8 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 5.0 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.5 Allgemeine Intelligenz : 4.8 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#90#90	Step 3.7 Flashhigh	6.9	Stepfun	$1.207	64.68s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 5 Eingabe-Token 98,691 Ausgabe-Token 1,032,395 Denk-Token 0 Antwortzeit (Durchschnitt) 64.68s Antwortzeit (Gesamt) 1423.01s Antwortzeit (Maximum) 364.99s Falsche Antwort: 6 Keine Antwort: 4 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 4.0 Kombiniert : 8.7 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 4.1 Allgemeine Intelligenz : 5.5 Befolgung von Anweisungen : 9.8 Rätsellösen : 5.3 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#91#91	GPT-5.5none	6.9	OpenAI	$0.544	2.36s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 56.1% Instabile Tests 3 Eingabe-Token 79,285 Ausgabe-Token 4,915 Denk-Token 0 Antwortzeit (Durchschnitt) 2.36s Antwortzeit (Gesamt) 51.88s Antwortzeit (Maximum) 12.24s Falsche Antwort: 11 Anti-KI-Tricks : 6.9 Programmierung : 5.5 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 6.2 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#92#92	Gemini 3.5 Flashminimal	6.8	Google	$0.300	2.65s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 65.2% Instabile Tests 1 Eingabe-Token 100,753 Ausgabe-Token 16,454 Denk-Token 0 Antwortzeit (Durchschnitt) 2.65s Antwortzeit (Gesamt) 58.27s Antwortzeit (Maximum) 25.26s Falsche Antwort: 5 Ungültiger Werkzeugaufruf: 2 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 6.5 Programmierung : 5.6 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 10.0 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 6.4 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#93#93	Gemini 3 Flash Previewnone	6.8	Google	$0.085	2.95s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 65.2% Instabile Tests 3 Eingabe-Token 104,210 Ausgabe-Token 10,710 Denk-Token 0 Antwortzeit (Durchschnitt) 2.95s Antwortzeit (Gesamt) 44.26s Antwortzeit (Maximum) 21.19s Falsche Antwort: 8 Keine Antwort: 1 Anti-KI-Tricks : 8.3 Programmierung : 5.5 Kombiniert : 3.8 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 6.4 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#94#94	Qwen3.6 35B A3Bmedium	6.7	Qwen	$0.746 ↑	58.06s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 60.6% Instabile Tests 1 Eingabe-Token 85,139 Ausgabe-Token 61,819 Denk-Token 678,766 Antwortzeit (Durchschnitt) 58.06s Antwortzeit (Gesamt) 1161.18s Antwortzeit (Maximum) 817.57s Falsche Antwort: 4 API-Fehler: 2 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 7.7 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.4 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.0 Werkzeugaufrufe : 3.0 Allgemeinwissen : 3.0
#95#95	Gemini 3.5 Flash-Litelow	6.7	Google	$0.145	2.25s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 66.7% Instabile Tests 5 Eingabe-Token 144,622 Ausgabe-Token 15,302 Denk-Token 24,971 Antwortzeit (Durchschnitt) 2.25s Antwortzeit (Gesamt) 49.58s Antwortzeit (Maximum) 13.50s Falsche Antwort: 9 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 4.1 Kombiniert : 6.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.6 Allgemeine Intelligenz : 6.1 Befolgung von Anweisungen : 9.8 Rätsellösen : 7.8 Werkzeugaufrufe : 9.8 Allgemeinwissen : 4.7
#97#97	KAT-Coder-Pro V2.5none	6.7	Kwaipilot	$0.476	25.56s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 68.2% Instabile Tests 7 Eingabe-Token 98,499 Ausgabe-Token 135,861 Denk-Token 0 Antwortzeit (Durchschnitt) 25.56s Antwortzeit (Gesamt) 562.43s Antwortzeit (Maximum) 335.41s Falsche Antwort: 10 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.7 Programmierung : 6.1 Kombiniert : 4.1 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.6 Allgemeine Intelligenz : 4.8 Befolgung von Anweisungen : 9.8 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#98#98	GLM 5V Turbomedium	6.7	Z.ai	$0.457	23.08s
Modellkarte anzeigen Gesamttests 21 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 65.2% Instabile Tests 6 Eingabe-Token 44,615 Ausgabe-Token 2,347 Denk-Token 98,415 Antwortzeit (Durchschnitt) 23.08s Antwortzeit (Gesamt) 484.63s Antwortzeit (Maximum) 95.88s Falsche Antwort: 7 Ungültiger Werkzeugaufruf: 2 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 7.2 Programmierung : 6.0 Kombiniert : 3.4 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 7.7 Werkzeugaufrufe : 7.0 Allgemeinwissen : 3.0
#99#99	Claude Opus 4.7none	6.6	Anthropic	$0.505	3.02s
Modellkarte anzeigen Gesamttests 19 Falsche Tests 3 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 72.7% Instabile Tests 0 Eingabe-Token 69,576 Ausgabe-Token 6,265 Denk-Token 0 Antwortzeit (Durchschnitt) 3.02s Antwortzeit (Gesamt) 57.44s Antwortzeit (Maximum) 18.27s Falsche Antwort: 3 Anti-KI-Tricks : 8.3 Programmierung : 3.3 Kombiniert : 4.8 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#101#101	GLM 5.2none	6.6	Z.ai	$0.125 ↓	9.34s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 59.1% Instabile Tests 2 Eingabe-Token 112,359 Ausgabe-Token 14,340 Denk-Token 0 Antwortzeit (Durchschnitt) 9.34s Antwortzeit (Gesamt) 205.46s Antwortzeit (Maximum) 79.65s Falsche Antwort: 8 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.3 Programmierung : 3.7 Kombiniert : 6.9 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 6.1 Befolgung von Anweisungen : 9.8 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#104#104	Gemini 3.5 Flash-Litemedium	6.5	Google	$0.369	6.01s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 69.7% Instabile Tests 7 Eingabe-Token 118,818 Ausgabe-Token 11,677 Denk-Token 121,611 Antwortzeit (Durchschnitt) 6.01s Antwortzeit (Gesamt) 132.30s Antwortzeit (Maximum) 49.03s Falsche Antwort: 9 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 5.5 Kombiniert : 3.8 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 5.4 Befolgung von Anweisungen : 9.8 Rätsellösen : 8.4 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#105#105	Qwen3.6 27Bmedium	6.5	Qwen	$1.038 ↑	106.32s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 12 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 59.1% Instabile Tests 6 Eingabe-Token 106,167 Ausgabe-Token 32,889 Denk-Token 241,303 Antwortzeit (Durchschnitt) 106.32s Antwortzeit (Gesamt) 2339.12s Antwortzeit (Maximum) 1085.11s Falsche Antwort: 6 Keine Antwort: 3 Ungültiger Werkzeugaufruf: 2 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 8.3 Programmierung : 7.7 Kombiniert : 6.7 Datenanalyse und -extraktion : 3.5 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 6.5 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#106#106	Hy3 previewmedium	6.5	Tencent	$0.018 ↕	16.28s
Modellkarte anzeigen Gesamttests 21 Falsche Tests 7 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 0 Eingabe-Token 27,030 Ausgabe-Token 73,544 Denk-Token 0 Antwortzeit (Durchschnitt) 16.28s Antwortzeit (Gesamt) 293.12s Antwortzeit (Maximum) 46.04s API-Fehler: 3 Falsche Antwort: 3 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 10.0 Programmierung : 5.3 Kombiniert : 5.0 Datenanalyse und -extraktion : 6.5 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#107#107	MiMo-V2.5medium	6.5	Xiaomi	$0.082 ↓	32.20s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 69.7% Instabile Tests 6 Eingabe-Token 105,447 Ausgabe-Token 7,120 Denk-Token 230,682 Antwortzeit (Durchschnitt) 32.20s Antwortzeit (Gesamt) 708.46s Antwortzeit (Maximum) 162.44s Falsche Antwort: 5 Zusätzliche Formatierung: 2 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 6.2 Kombiniert : 8.7 Datenanalyse und -extraktion : 2.7 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.4 Befolgung von Anweisungen : 9.9 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#108#108	Laguna XS 2.1medium	6.5	Poolside	$0.068	47.93s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 13 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 42.4% Instabile Tests 1 Eingabe-Token 118,989 Ausgabe-Token 30,750 Denk-Token 491,833 Antwortzeit (Durchschnitt) 47.93s Antwortzeit (Gesamt) 1054.49s Antwortzeit (Maximum) 422.72s Falsche Antwort: 11 Ungültiger Werkzeugaufruf: 1 Keine Antwort: 1 Anti-KI-Tricks : 4.8 Programmierung : 5.5 Kombiniert : 6.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 5.0 Befolgung von Anweisungen : 9.8 Rätsellösen : 5.3 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0

←

1 2 3 4 8

→

Schnellvergleich

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

AI Benchy Bestenliste

Modelle filtern

Schnellvergleich