AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

#50

Hunter Alpha

Openrouter ยท Releasedatum: Onbekende releasedatum ยท openrouter/hunter-alpha::none

Gem. score

4.6

Kosten per resultaat

0.000

Consistentie

8.0

Totale kosten

$0.000

Correcte tests

Foute tests: 10

Slaagpercentage per poging: 52.1%

Instabiele tests

4

Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).

Responstijd (gem.)

4.64s

Responstijd (max): 15.17s

Responstijd (totaal): 74.24s

Grafieken

Kies eerst het eerste model en klik daarna op een tweede model om een zij-aan-zijpagina te openen.

Totaal aantal uitvoer-tokens

Gem. score vs Totaal aantal uitvoer-tokens

Snelle vergelijking

Categorie-uitsplitsing

Categorie Gem. score Consistentie Correcte tests
Anti-AI-trucs 1.3 7.4
Gecombineerd 10.0 10.0
Gegevensparsering en extractie 9.9 10.0
Domeinspecifiek 4.0 10.0
Algemene intelligentie 5.0 3.1
Instructies opvolgen 5.0 10.0
Puzzeloplossing 4.0 4.4
Toolaanroepen 10.0 10.0

Vergeleken modellen