AI BENCHY Compare

Trinity Large Preview vs xAI: Grok 4.1 Fast

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-16

Metrik	Trinity Large Preview Trinity Large Preview none Rilis: 2026-01-27 Tersedia gratis	Grok 4.1 Fast Grok 4.1 Fast medium Rilis: 2025-11-19

Metrik	Trinity Large Preview Trinity Large Preview none Rilis: 2026-01-27 Tersedia gratis	Grok 4.1 Fast Grok 4.1 Fast medium Rilis: 2025-11-19
Skor	5.3	6.7
Peringkat	#76	#51
Konsistensi	9.6	7.2
Tes benar
Tingkat lulus per percobaan	29.6%	64.8%
Tes tidak stabil	1	6
Total Run	52	54
Biaya per hasil	0.000	0.613
Total Biaya	$0.000	$0.056
Harga input	$0.000 / 1M	$0.200 / 1M
Harga output	$0.000 / 1M	$0.500 / 1M
Token output	1,985	2,010
Token penalaran	0	91,298
Waktu respons (rata-rata)	5.07s	23.88s
Waktu respons (maks)	39.47s	121.79s
Waktu respons (total)	91.23s	262.66s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Trinity Large Preview	3.0	10.0	0.0%	0		3.02s	593	0
Grok 4.1 Fast	8.7	7.9	91.7%	1		3.81s	108	4,741

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Trinity Large Preview	6.3	10.0	0.0%	0		39.47s	142	0
Grok 4.1 Fast	2.3	1.1	33.3%	1		23.58s	821	6,703

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Trinity Large Preview	3.0	10.0	0.0%	0		8.91s	294	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Trinity Large Preview	10.0	10.0	100.0%	0		3.26s	186	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		6.63s	180	5,409

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Trinity Large Preview	5.3	10.0	33.3%	0		877ms	25	0
Grok 4.1 Fast	5.8	4.4	66.7%	2		121.79s	11	37,657

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Trinity Large Preview	4.4	9.9	0.0%	0		2.86s	124	0
Grok 4.1 Fast	4.2	9.9	0.0%	0		16.25s	127	3,456

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Trinity Large Preview	4.1	6.7	16.7%	1		1.09s	63	0
Grok 4.1 Fast	6.6	10.0	50.0%	0		5.30s	55	3,489

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Trinity Large Preview	5.4	10.0	33.3%	0		3.30s	291	0
Grok 4.1 Fast	5.3	7.2	44.4%	1		8.08s	187	6,086

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
Grok 4.1 Fast	2.8	1.6	33.3%	1		27.71s	260	11,485

Perbandingan Cepat

Ganti Pasangan Perbandingan

Grok 4.1 FastmediumvsGLM 5none Trinity Large PreviewnoneTersedia gratisvsMiniMax M2.7medium Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Trinity Large PreviewnoneTersedia gratisvsElephantmedium Grok 4.1 FastmediumvsMiMo-V2-Omninone Gemma 4 31BnoneTersedia gratisvsGrok 4.1 Fastmedium Trinity Large PreviewnoneTersedia gratisvsMistral Small 4medium Trinity Large PreviewnoneTersedia gratisvsMiniMax M2.5mediumTersedia gratis Grok 4.1 FastmediumvsGLM 5V Turbonone Qwen3.5-FlashnonevsGrok 4.1 Fastmedium Gemma 4 26B A4BnoneTersedia gratisvsGrok 4.1 Fastmedium Trinity Large PreviewnoneTersedia gratisvsgpt-oss-120bmediumTersedia gratis