AI BENCHY
Vergelijken Grafieken Methodologie
โค๏ธ Made by XCS
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

#45

Trinity Large Preview

Arcee AI ยท Releasedatum: 2026-01-27 ยท arcee-ai/trinity-large-preview::none

Gem. score

4.2

Kosten per resultaat

0.000

Consistentie

9.6

Totale kosten

$0.000

Correcte tests

Foute tests: 11

Slaagpercentage per poging: 33.3%

Instabiele tests

1

Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).

Responstijd (gem.)

3.15s

Responstijd (max): 8.91s

Responstijd (totaal): 50.46s

Verkeerd antwoord: 9 Instructies niet gevolgd: 2

Grafieken

Kies eerst het eerste model en klik daarna op een tweede model om een zij-aan-zijpagina te openen.

Snelle vergelijking

Categorie-uitsplitsing

Categorie Gem. score Consistentie Correcte tests
Anti-AI Tricks 10.0 10.0
Combined 10.0 10.0
Data parsing and extraction 9.9 10.0
Domain specific 4.0 10.0
General Intelligence 3.0 9.9
Instructions following 3.5 6.7
Puzzle Solving 4.0 10.0
Tool Calling 10.0 10.0