Kushindwa kwa AI BENCHY
Kushindwa kwa Hitilafu ya API
Ona ni modeli gani za AI hukutana na Hitilafu ya API mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua. Panga kwa: Idadi ya kushindwa ↑.
Modeli zilizoonyeshwa
15
Jumla ya kushindwa
144
Modeli iliyoathirika zaidi
Qwen3.5 Plus 2026-02-15 1Kategoria
Katika kategoria Uandishi wa msimbo43 Katika kategoria Uchanganuzi na uchimbaji wa data16 Katika kategoria Mwito wa zana15 Katika kategoria Mbinu za kupinga AI13 Katika kategoria Mchanganyiko13 Katika kategoria Utatuzi wa mafumbo13 Katika kategoria Akili ya jumla12 Katika kategoria Maarifa ya jumla12 Katika kategoria Mahususi kwa domeni6 Katika kategoria Ufuataji wa maagizo1
| Nafasi | Modeli | Kampuni | Idadi ya Hitilafu ya API | Alama | Majaribio sahihi | Muda wa majibu (wastani) |
|---|---|---|---|---|---|---|
| #20 | Gemini 3.5 Flash none | 3 | 8.1 | 15/21 | 9.93s | |
| #33 | Hy3 preview medium | Tencent | 3 | 7.7 | 14/21 | 16.3s |
| #100 | Grok Build 0.1 none | X AI | 3 | 6.0 | 7/19 | 28.7s |
| #105 | Nemotron 3 Super medium | NVIDIA | 3 | 5.8 | 8/21 | 32.0s |
| #126 | gpt-oss-120b none | OpenAI | 3 | 5.4 | 6/19 | 21.6s |
| #136 | Elephant Alpha medium | Openrouter | 3 | 5.1 | 6/21 | 1.27s |
| #137 | Elephant Alpha none | Openrouter | 3 | 5.1 | 5/21 | 1.22s |
| #159 | Ling-2.6-1T none | Inclusionai | 3 | 4.3 | 3/21 | 7.72s |
| #35 | Gemini 3 PRO Preview medium | 4 | 7.6 | 14/21 | 9.05s | |
| #83 | Step 3.5 Flash none | Stepfun | 4 | 6.6 | 6/12 | 39.0s |
| #92 | Laguna M.1 medium | Poolside | 4 | 6.4 | 9/19 | 14.7s |
| #107 | Laguna Xs.2 medium | Poolside | 4 | 5.8 | 6/19 | 6.73s |
| #133 | DeepSeek V3.2 none | DeepSeek | 4 | 5.2 | 6/21 | 13.8s |
| #145 | Laguna M.1 none | Poolside | 4 | 4.8 | 4/19 | 2.89s |
| #146 | Laguna Xs.2 none | Poolside | 4 | 4.8 | 5/19 | 806ms |