Navigatie
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Qwen: Qwen3.6 Plus vs xAI: Grok 4.3

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-05-10

Metriek Qwen3.6 Plus Qwen3.6 Plus medium Releasedatum: 2026-04-20 Grok 4.3 Grok 4.3 medium Releasedatum: 2026-05-01
Score 7.9 8.0
Rang #28 #24
Betrouwbaarheid 10.0 10.0
Consistentie 9.6 8.7
Correcte tests
Slaagpercentage per poging 70.2% 77.2%
Instabiele tests 1 3
Totaal runs 57 57
Kosten per resultaat 0.118 4.229
Totale kosten $0.016 $0.550
Invoerprijs $0.325 / 1M $1.250 / 1M
Uitvoerprijs $1.950 / 1M $2.500 / 1M
Uitvoer-tokens 1,784 1,237
Redeneer-tokens 91,543 200,033
Responstijd (gem.) 17.06s 48.41s
Responstijd (max) 47.51s 216.69s
Responstijd (totaal) 307.07s 919.73s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 10.0 10.0 100.0% 0 9.90s 207 7,557
Grok 4.3 10.0 10.0 100.0% 0 8.83s 88 8,207
Programmeren Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 3.0 10.0 0.0% 0 0ms 0 0
Grok 4.3 10.0 10.0 100.0% 0 45.72s 284 9,659
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 10.0 10.0 100.0% 0 34.95s 452 13,073
Grok 4.3 10.0 10.0 100.0% 0 63.99s 234 15,301
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 10.0 10.0 100.0% 0 14.95s 270 10,706
Grok 4.3 10.0 10.0 100.0% 0 18.97s 180 9,546
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 2.9 7.2 11.1% 1 29.59s 56 33,464
Grok 4.3 5.3 7.2 44.4% 1 181.74s 14 111,300
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 5.1 10.0 0.0% 0 27.05s 111 5,232
Grok 4.3 5.4 2.5 66.7% 1 24.70s 70 5,020
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 10.0 10.0 100.0% 0 7.54s 102 5,552
Grok 4.3 9.8 10.0 100.0% 0 18.58s 57 8,713
Puzzeloplossing Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 10.0 10.0 100.0% 0 6.11s 298 6,868
Grok 4.3 5.9 7.2 55.6% 1 22.53s 128 14,686
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 10.0 10.0 100.0% 0 5.87s 267 1,330
Grok 4.3 10.0 10.0 100.0% 0 17.66s 168 4,615
Algemene kennis Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Qwen3.6 Plus 3.0 10.0 0.0% 0 47.51s 21 7,761
Grok 4.3 3.0 10.0 0.0% 0 44.47s 14 12,986

Snelle vergelijking

Vergelijkingspaar wisselen