Navigasi
AI BENCHY
Your ad here

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.5-Flash

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-17

Metrik Seed-2.0-Lite Seed-2.0-Lite medium Rilis: 2026-02-14 Qwen3.5-Flash Qwen3.5-Flash medium Rilis: 2026-02-24
Peringkat #5 #19
Skor 8.5 8.0
Konsistensi 8.8 7.6
Biaya per hasil 0.873 0.688
Total Biaya $0.105 $0.076
Tes benar
Tingkat lulus per percobaan 82.4% 82.4%
Tes tidak stabil 3 5
Total Run 51 51
Token output 2,821 1,827
Token penalaran 44,723 179,299
Waktu respons (rata-rata) 27.78s 67.96s
Waktu respons (maks) 168.71s 234.29s
Waktu respons (total) 472.24s 1155.28s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Seed-2.0-Lite 8.3 10.0 75.0% 0 17.99s 996 7,142
Qwen3.5-Flash 10.0 10.0 100.0% 0 59.11s 383 32,992
Gabungan Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Seed-2.0-Lite 10.0 10.0 100.0% 0 37.67s 506 4,299
Qwen3.5-Flash 10.0 10.0 100.0% 0 17.78s 483 8,270
Parsing dan ekstraksi data Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Seed-2.0-Lite 10.0 10.0 100.0% 0 9.07s 246 1,742
Qwen3.5-Flash 7.3 5.9 83.3% 1 56.99s 235 16,237
Spesifik domain Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Seed-2.0-Lite 5.9 7.2 55.6% 1 88.74s 15 23,897
Qwen3.5-Flash 5.3 7.2 44.4% 1 146.50s 58 43,615
Kecerdasan umum Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Seed-2.0-Lite 6.7 3.6 66.7% 1 18.25s 304 1,620
Qwen3.5-Flash 6.1 3.1 66.7% 1 40.05s 99 38,486
Kepatuhan instruksi Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Seed-2.0-Lite 10.0 10.0 100.0% 0 7.26s 71 1,480
Qwen3.5-Flash 10.0 10.0 100.0% 0 63.49s 98 14,139
Puzzle Solving Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Seed-2.0-Lite 9.0 7.9 88.9% 1 11.03s 461 3,532
Qwen3.5-Flash 6.4 4.4 77.8% 2 56.74s 162 24,276
Pemanggilan alat Skor Konsistensi Tingkat lulus per percobaan Tes tidak stabil Tes benar Waktu respons (rata-rata) Token output Token penalaran
Seed-2.0-Lite 10.0 10.0 100.0% 0 12.38s 222 1,011
Qwen3.5-Flash 10.0 10.0 100.0% 0 10.33s 309 1,284

Perbandingan Cepat

Ganti Pasangan Perbandingan