Navigation
AI BENCHY
Advertise here

AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.7 Plus

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-03

Metrik GPT-5.5 GPT-5.5 medium Veröffentlichung: 2026-04-24 Qwen3.7 Plus Qwen3.7 Plus medium Veröffentlichung: 2026-06-03
Punktzahl 8.7 8.4
Rang #10 #16
Zuverlässigkeit 10.0 9.9
Konsistenz 8.8 9.2
Korrekte Tests
Erfolgsquote pro Versuch 86.7% 80.0%
Instabile Tests 3 2
Gesamtläufe 60 60
Kosten pro Ergebnis 21.884 1.324
Gesamtkosten $3.502 $0.199
Eingabepreis $5.000 / 1M $0.400 / 1M
Ausgabepreis $30.000 / 1M $1.600 / 1M
Gesamte Eingabe-Token 31,593 38,104
Ausgabe-Token 1,964 2,107
Denk-Token 109,481 112,479
Antwortzeit (Durchschnitt) 37.88s 36.84s
Antwortzeit (Maximum) 332.10s 178.04s
Antwortzeit (Gesamt) 757.66s 736.86s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 10.0 10.0 100.0% 0 4.66s 606 250 1,335
Qwen3.7 Plus 10.0 10.0 100.0% 0 8.58s 672 195 5,065
Programmierung Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 8.2 6.7 83.3% 1 69.68s 4,686 341 19,515
Qwen3.7 Plus 6.5 5.9 66.7% 1 122.40s 3,637 396 30,301
Kombiniert Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 10.0 10.0 100.0% 0 19.29s 11,019 312 2,841
Qwen3.7 Plus 10.0 10.0 100.0% 0 65.24s 14,934 366 10,132
Datenanalyse und -extraktion Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 10.0 10.0 100.0% 0 4.18s 7,140 234 593
Qwen3.7 Plus 10.0 10.0 100.0% 0 21.75s 7,782 270 6,713
Domänenspezifisch Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 5.3 7.2 44.4% 1 164.14s 723 67 79,625
Qwen3.7 Plus 3.6 7.2 22.2% 1 45.35s 771 57 27,073
Allgemeine Intelligenz Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 10.0 10.0 100.0% 0 4.16s 477 138 223
Qwen3.7 Plus 10.0 10.0 100.0% 0 25.48s 516 123 3,998
Befolgung von Anweisungen Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 10.0 10.0 100.0% 0 3.36s 660 93 538
Qwen3.7 Plus 10.0 10.0 100.0% 0 16.13s 699 102 5,013
Rätsellösen Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 10.0 10.0 100.0% 0 6.76s 642 241 2,225
Qwen3.7 Plus 10.0 10.0 100.0% 0 16.38s 696 280 7,312
Werkzeugaufrufe Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 10.0 10.0 100.0% 0 10.57s 5,445 258 832
Qwen3.7 Plus 10.0 10.0 100.0% 0 15.02s 8,193 292 1,831
Allgemeinwissen Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Eingabe-Token Ausgabe-Token Denk-Token
GPT-5.5 2.8 1.6 33.3% 1 37.86s 195 30 1,754
Qwen3.7 Plus 3.0 10.0 0.0% 0 91.07s 204 26 15,041

Schnellvergleich

Vergleichspaar wechseln