Navigatie
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5 Plus 2026-02-15

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-03-15

Metriek GPT-5.4 GPT-5.4 medium Releasedatum: 2026-03-05 Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium Releasedatum: 2026-02-15
Rang #9 #4
Score 8.5 8.8
Consistentie 8.5 9.5
Kosten per resultaat 6.601 1.264
Totale kosten $0.793 $0.165
Correcte tests
Slaagpercentage per poging 83.3% 85.4%
Instabiele tests 3 1
Totaal runs 48 48
Uitvoer-tokens 1,756 1,735
Redeneer-tokens 46,642 77,212
Responstijd (gem.) 20.05s 34.45s
Responstijd (max) 100.41s 79.86s
Responstijd (totaal) 320.87s 310.09s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 10.37s 186 5,926
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 46.85s 421 7,906
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.4 10.0 10.0 100.0% 0 5.32s 234 804
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 46.91s 270 14,916
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.4 5.3 7.2 44.4% 1 74.27s 61 34,748
Qwen3.5 Plus 2026-02-15 5.3 10.0 33.3% 0 17.50s 35 16,680
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.4 4.7 3.1 33.3% 1 4.92s 145 321
Qwen3.5 Plus 2026-02-15 4.7 1.6 66.7% 1 79.86s 73 8,675
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 31.93s 101 7,704
Puzzle Solving Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.4 8.2 7.2 88.9% 1 9.13s 442 3,832
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 34.57s 340 14,496
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 7.54s 309 909

Snelle vergelijking

Vergelijkingspaar wisselen