AI Benchy Bestenliste

Name: AI BENCHY Modell-Benchmark-Ergebnisse
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-24 Bewertete Modelle: 222

222/222

Rang	Modell	Punktzahl	Unternehmen	Gesamtkosten	Antwortzeit (Durchschnitt)
#1🥇 #1	Gemini 3.6 Flashmedium	9.9	Google	$0.831	10.11s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 1 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 98.5% Instabile Tests 1 Eingabe-Token 66,293 Ausgabe-Token 2,000 Denk-Token 95,464 Antwortzeit (Durchschnitt) 10.11s Antwortzeit (Gesamt) 222.33s Antwortzeit (Maximum) 68.03s Falsche Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 8.2 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 10.0
#2🥈 #2	Gemini 3.6 Flashhigh	9.7	Google	$1.785	14.88s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 1 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 98.5% Instabile Tests 1 Eingabe-Token 87,819 Ausgabe-Token 5,750 Denk-Token 214,596 Antwortzeit (Durchschnitt) 14.88s Antwortzeit (Gesamt) 327.37s Antwortzeit (Maximum) 88.00s Falsche Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 10.0 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 4.7
#3🥉 #3	Gemini 3 Flash Previewmedium	9.6	Google	$0.742	19.20s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 1 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 98.5% Instabile Tests 1 Eingabe-Token 87,861 Ausgabe-Token 5,486 Denk-Token 227,164 Antwortzeit (Durchschnitt) 19.20s Antwortzeit (Gesamt) 422.42s Antwortzeit (Maximum) 117.26s Falsche Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 8.6 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 10.0 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 10.0
#4#4	Gemini 3.5 Flashhigh	9.5	Google	$1.976	15.07s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 2 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 93.9% Instabile Tests 2 Eingabe-Token 107,137 Ausgabe-Token 8,777 Denk-Token 192,900 Antwortzeit (Durchschnitt) 15.07s Antwortzeit (Gesamt) 331.48s Antwortzeit (Maximum) 145.92s Ungültiger Werkzeugaufruf: 1 Falsche Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 8.2 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.6 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 9.8 Allgemeinwissen : 10.0
#5#5	GPT-5.6 Sollow	9.5	OpenAI	$0.971	8.79s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 4 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 86.4% Instabile Tests 2 Eingabe-Token 78,571 Ausgabe-Token 4,476 Denk-Token 14,770 Antwortzeit (Durchschnitt) 8.79s Antwortzeit (Gesamt) 193.33s Antwortzeit (Maximum) 53.91s Falsche Antwort: 4 Anti-KI-Tricks : 8.3 Programmierung : 10.0 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 10.0
#6#6	Gemini 3.6 Flashlow	9.4	Google	$0.517	4.42s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 1 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 97.0% Instabile Tests 1 Eingabe-Token 82,715 Ausgabe-Token 5,729 Denk-Token 46,633 Antwortzeit (Durchschnitt) 4.42s Antwortzeit (Gesamt) 97.13s Antwortzeit (Maximum) 28.92s Falsche Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 7.8 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 10.0 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 10.0
#7#7	GPT-5.6 Solmedium	9.4	OpenAI	$1.316	11.35s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 4 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 90.9% Instabile Tests 3 Eingabe-Token 78,997 Ausgabe-Token 4,696 Denk-Token 26,002 Antwortzeit (Durchschnitt) 11.35s Antwortzeit (Gesamt) 249.73s Antwortzeit (Maximum) 79.40s Falsche Antwort: 4 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.9 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 4.7
#8#8	GPT-5.6 Solhigh	9.4	OpenAI	$1.234	11.73s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 4 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 89.4% Instabile Tests 3 Eingabe-Token 79,249 Ausgabe-Token 4,855 Denk-Token 23,044 Antwortzeit (Durchschnitt) 11.73s Antwortzeit (Gesamt) 257.99s Antwortzeit (Maximum) 54.79s Falsche Antwort: 4 Anti-KI-Tricks : 8.7 Programmierung : 10.0 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 4.7
#9#9	GPT-5.5low	9.3	OpenAI	$1.253	10.13s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 3 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 86.4% Instabile Tests 0 Eingabe-Token 80,058 Ausgabe-Token 5,378 Denk-Token 23,040 Antwortzeit (Durchschnitt) 10.13s Antwortzeit (Gesamt) 222.82s Antwortzeit (Maximum) 56.19s Falsche Antwort: 3 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#10#10	Gemini 3.1 Pro Previewmedium	9.2	Google	$1.361	21.47s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 2 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 90.9% Instabile Tests 0 Eingabe-Token 92,287 Ausgabe-Token 5,232 Denk-Token 92,726 Antwortzeit (Durchschnitt) 21.47s Antwortzeit (Gesamt) 322.08s Antwortzeit (Maximum) 88.68s Falsche Antwort: 2 Anti-KI-Tricks : 10.0 Programmierung : 7.9 Kombiniert : 9.8 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 10.0
#11#11	Qwen3.7 Maxmedium	9.2	Qwen	$1.116 ↓	40.57s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 4 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 87.9% Instabile Tests 2 Eingabe-Token 106,020 Ausgabe-Token 5,748 Denk-Token 211,004 Antwortzeit (Durchschnitt) 40.57s Antwortzeit (Gesamt) 892.57s Antwortzeit (Maximum) 556.06s Falsche Antwort: 3 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 8.7 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.9 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#12#12	Gemini 3.5 Flashmedium	9.1	Google	$0.642	8.20s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 3 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 87.9% Instabile Tests 1 Eingabe-Token 69,747 Ausgabe-Token 2,166 Denk-Token 57,436 Antwortzeit (Durchschnitt) 8.20s Antwortzeit (Gesamt) 180.47s Antwortzeit (Maximum) 76.68s Falsche Antwort: 2 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 10.0 Programmierung : 7.9 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 10.0
#13#13	GPT-5.5medium	9.0	OpenAI	$4.137	38.42s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 4 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 87.9% Instabile Tests 3 Eingabe-Token 80,659 Ausgabe-Token 5,617 Denk-Token 118,819 Antwortzeit (Durchschnitt) 38.42s Antwortzeit (Gesamt) 845.35s Antwortzeit (Maximum) 332.10s Falsche Antwort: 4 Anti-KI-Tricks : 10.0 Programmierung : 8.8 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 2.8
#14#14	Gemini 3.5 Flashlow	8.9	Google	$0.433	5.55s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 3 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 87.9% Instabile Tests 1 Eingabe-Token 87,817 Ausgabe-Token 2,239 Denk-Token 31,182 Antwortzeit (Durchschnitt) 5.55s Antwortzeit (Gesamt) 122.19s Antwortzeit (Maximum) 53.55s Falsche Antwort: 2 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 7.8 Kombiniert : 8.2 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 10.0
#15#15	Grok 4.5high	8.9	X AI	$1.707	76.50s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 5 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 83.3% Instabile Tests 2 Eingabe-Token 151,562 Ausgabe-Token 5,655 Denk-Token 247,540 Antwortzeit (Durchschnitt) 76.50s Antwortzeit (Gesamt) 1683.07s Antwortzeit (Maximum) 676.83s Keine Antwort: 2 Falsche Antwort: 2 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.6 Allgemeine Intelligenz : 4.7 Befolgung von Anweisungen : 9.8 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#16#16	GPT-5.3-Codexmedium	8.9	OpenAI	$0.920	16.96s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 6 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 83.3% Instabile Tests 4 Eingabe-Token 81,268 Ausgabe-Token 6,251 Denk-Token 49,274 Antwortzeit (Durchschnitt) 16.96s Antwortzeit (Gesamt) 373.19s Antwortzeit (Maximum) 100.93s Falsche Antwort: 4 Anweisungen nicht befolgt: 2 Anti-KI-Tricks : 8.7 Programmierung : 10.0 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.9 Allgemeine Intelligenz : 4.6 Befolgung von Anweisungen : 10.0 Rätsellösen : 9.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 2.8
#17#17	Claude Opus 4.8medium	8.8	Anthropic	$1.931	12.49s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 4 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 84.9% Instabile Tests 1 Eingabe-Token 138,451 Ausgabe-Token 40,766 Denk-Token 9,075 Antwortzeit (Durchschnitt) 12.49s Antwortzeit (Gesamt) 274.72s Antwortzeit (Maximum) 70.54s Falsche Antwort: 3 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 9.9 Datenanalyse und -extraktion : 7.1 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#18#18	Claude Opus 4.7medium	8.7	Anthropic	$1.477	7.61s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 4 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 83.3% Instabile Tests 1 Eingabe-Token 145,252 Ausgabe-Token 24,948 Denk-Token 5,042 Antwortzeit (Durchschnitt) 7.61s Antwortzeit (Gesamt) 159.91s Antwortzeit (Maximum) 65.40s Falsche Antwort: 3 Zeitüberschreitung: 1 Anti-KI-Tricks : 8.3 Programmierung : 7.6 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#19#19	Muse Spark 1.1medium	8.6	Meta	$1.357	24.97s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 7 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 72.7% Instabile Tests 2 Eingabe-Token 142,567 Ausgabe-Token 7,905 Denk-Token 269,225 Antwortzeit (Durchschnitt) 24.97s Antwortzeit (Gesamt) 549.31s Antwortzeit (Maximum) 165.38s Falsche Antwort: 4 Anweisungen nicht befolgt: 2 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 8.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.5 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 6.5 Rätsellösen : 7.9 Werkzeugaufrufe : 9.8 Allgemeinwissen : 3.0
#20#20	Claude Fable 5medium	8.6	Anthropic	$3.478	17.20s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 5 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 78.8% Instabile Tests 1 Eingabe-Token 89,643 Ausgabe-Token 41,360 Denk-Token 10,269 Antwortzeit (Durchschnitt) 17.20s Antwortzeit (Gesamt) 378.41s Antwortzeit (Maximum) 80.80s Keine Antwort: 2 Falsche Antwort: 2 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#21#21	GPT-5.4medium	8.5	OpenAI	$1.533	23.10s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 7 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 77.3% Instabile Tests 4 Eingabe-Token 81,127 Ausgabe-Token 6,155 Denk-Token 82,515 Antwortzeit (Durchschnitt) 23.10s Antwortzeit (Gesamt) 508.26s Antwortzeit (Maximum) 100.41s Falsche Antwort: 5 Anweisungen nicht befolgt: 2 Anti-KI-Tricks : 8.3 Programmierung : 8.8 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.7 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#23#23	Grok 4.5low	8.4	X AI	$0.935	15.56s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 6 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 75.8% Instabile Tests 1 Eingabe-Token 125,596 Ausgabe-Token 7,505 Denk-Token 106,446 Antwortzeit (Durchschnitt) 15.56s Antwortzeit (Gesamt) 342.32s Antwortzeit (Maximum) 205.28s Falsche Antwort: 6 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 6.5 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.0 Allgemeine Intelligenz : 6.1 Befolgung von Anweisungen : 9.8 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#24#24	GPT-5.2medium	8.4	OpenAI	$0.951	22.62s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 72.7% Instabile Tests 4 Eingabe-Token 105,004 Ausgabe-Token 9,914 Denk-Token 44,868 Antwortzeit (Durchschnitt) 22.62s Antwortzeit (Gesamt) 339.28s Antwortzeit (Maximum) 102.93s Anweisungen nicht befolgt: 3 Falsche Antwort: 3 Keine Antwort: 1 Zeitüberschreitung: 1 Anti-KI-Tricks : 6.5 Programmierung : 10.0 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.9 Allgemeine Intelligenz : 3.7 Befolgung von Anweisungen : 9.9 Rätsellösen : 7.5 Werkzeugaufrufe : 4.7 Allgemeinwissen : 3.0
#25#25	Grok 4.5medium	8.3	X AI	$1.928	61.71s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 6 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 78.8% Instabile Tests 3 Eingabe-Token 122,146 Ausgabe-Token 5,514 Denk-Token 275,053 Antwortzeit (Durchschnitt) 61.71s Antwortzeit (Gesamt) 1357.56s Antwortzeit (Maximum) 436.38s Falsche Antwort: 6 Anti-KI-Tricks : 10.0 Programmierung : 7.6 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 6.5 Befolgung von Anweisungen : 9.8 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#26#26	Claude Sonnet 5medium	8.3	Anthropic	$0.922	12.52s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 6 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 80.3% Instabile Tests 3 Eingabe-Token 145,956 Ausgabe-Token 52,333 Denk-Token 10,874 Antwortzeit (Durchschnitt) 12.52s Antwortzeit (Gesamt) 275.42s Antwortzeit (Maximum) 66.71s Falsche Antwort: 4 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 10.0 Programmierung : 9.0 Kombiniert : 7.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 4.8 Befolgung von Anweisungen : 9.9 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#27#27	Muse Spark 1.1low	8.3	Meta	$0.647	11.45s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 69.7% Instabile Tests 4 Eingabe-Token 142,298 Ausgabe-Token 10,847 Denk-Token 99,467 Antwortzeit (Durchschnitt) 11.45s Antwortzeit (Gesamt) 251.92s Antwortzeit (Maximum) 54.15s Falsche Antwort: 6 Anweisungen nicht befolgt: 2 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 7.9 Programmierung : 10.0 Kombiniert : 6.6 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 7.3 Rätsellösen : 8.3 Werkzeugaufrufe : 9.8 Allgemeinwissen : 3.0
#28#28	Gemini 2.5 Flashmedium	8.2	Google	$0.643	21.18s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 7 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 71.2% Instabile Tests 1 Eingabe-Token 132,498 Ausgabe-Token 12,739 Denk-Token 228,464 Antwortzeit (Durchschnitt) 21.18s Antwortzeit (Gesamt) 465.89s Antwortzeit (Maximum) 140.50s Falsche Antwort: 6 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 8.4 Programmierung : 7.8 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.9 Allgemeine Intelligenz : 4.8 Befolgung von Anweisungen : 9.8 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#29#29	GPT-5 Minimedium	8.1	OpenAI	$0.237	27.63s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 3 Eingabe-Token 98,374 Ausgabe-Token 14,434 Denk-Token 91,498 Antwortzeit (Durchschnitt) 27.63s Antwortzeit (Gesamt) 607.92s Antwortzeit (Maximum) 111.48s Falsche Antwort: 5 Anweisungen nicht befolgt: 3 Keine Antwort: 1 Zeitüberschreitung: 1 Anti-KI-Tricks : 7.1 Programmierung : 10.0 Kombiniert : 7.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.6 Allgemeine Intelligenz : 4.5 Befolgung von Anweisungen : 10.0 Rätsellösen : 5.6 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#30#30	Muse Spark 1.1high	8.1	Meta	$1.694	31.49s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 69.7% Instabile Tests 6 Eingabe-Token 129,423 Ausgabe-Token 8,077 Denk-Token 352,421 Antwortzeit (Durchschnitt) 31.49s Antwortzeit (Gesamt) 661.28s Antwortzeit (Maximum) 196.03s Falsche Antwort: 4 Anweisungen nicht befolgt: 2 Ungültiger Werkzeugaufruf: 2 API-Fehler: 1 Keine Antwort: 1 Anti-KI-Tricks : 7.5 Programmierung : 10.0 Kombiniert : 5.9 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.5 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 6.4 Rätsellösen : 7.8 Werkzeugaufrufe : 9.6 Allgemeinwissen : 3.0
#31#31	Gemini 3.5 Flash-Litehigh	8.1	Google	$0.584	9.48s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 81.8% Instabile Tests 7 Eingabe-Token 105,138 Ausgabe-Token 8,315 Denk-Token 212,507 Antwortzeit (Durchschnitt) 9.48s Antwortzeit (Gesamt) 208.52s Antwortzeit (Maximum) 43.93s Falsche Antwort: 6 Anweisungen nicht befolgt: 1 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 8.6 Kombiniert : 7.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.4 Befolgung von Anweisungen : 8.5 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 2.8

Schnellvergleich

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

AI Benchy Bestenliste

Modelle filtern

Schnellvergleich