Navigatie
AI BENCHY
Advertise here

AI BENCHY Compare

Cobuddy vs Inception: Mercury 2

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-05-22

Metriek Cobuddy Cobuddy medium Releasedatum: 2026-05-06 Gratis beschikbaar Mercury 2 Mercury 2 medium Releasedatum: 2026-02-24
Score 5.7 6.3
Rang #105 #90
Betrouwbaarheid 9.9 10.0
Consistentie 7.0 8.4
Correcte tests
Slaagpercentage per poging 51.7% 50.0%
Instabiele tests 7 4
Totaal runs 60 60
Kosten per resultaat 0.000 0.687
Totale kosten $0.000 $0.055
Invoerprijs $0.000 / 1M $0.250 / 1M
Uitvoerprijs $0.000 / 1M $0.750 / 1M
Uitvoer-tokens 1,663 4,015
Redeneer-tokens 116,522 58,382
Responstijd (gem.) 39.91s 2.27s
Responstijd (max) 309.02s 14.63s
Responstijd (totaal) 798.21s 43.15s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 8.7 7.9 91.7% 1 10.00s 98 4,666
Mercury 2 6.9 9.9 50.0% 0 1.12s 2,546 2,609
Programmeren Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 4.1 5.1 33.3% 1 79.17s 358 30,138
Mercury 2 7.2 6.5 66.7% 1 2.29s 270 8,514
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 3.0 10.0 0.0% 0 47.38s 465 7,265
Mercury 2 10.0 10.0 100.0% 0 3.28s 268 4,887
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 6.3 5.8 66.7% 1 17.36s 275 5,591
Mercury 2 7.3 5.9 83.3% 1 1.11s 183 1,656
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 2.9 4.4 22.2% 2 128.15s 10 49,454
Mercury 2 2.9 7.2 11.1% 1 6.48s 41 30,754
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 4.2 9.9 0.0% 0 23.23s 76 3,782
Mercury 2 4.8 10.0 0.0% 0 821ms 137 542
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 9.8 10.0 100.0% 0 11.60s 64 2,842
Mercury 2 10.0 10.0 100.0% 0 1.07s 14 958
Puzzeloplossing Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 3.5 4.4 33.3% 2 12.91s 175 5,627
Mercury 2 3.8 7.3 22.2% 1 934ms 354 2,758
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 10.0 10.0 100.0% 0 11.19s 133 294
Mercury 2 10.0 10.0 100.0% 0 1.89s 180 1,956
Algemene kennis Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Cobuddy 3.0 10.0 0.0% 0 36.98s 9 6,863
Mercury 2 3.0 10.0 0.0% 0 2.58s 22 3,748

Snelle vergelijking

Vergelijkingspaar wisselen