AI Benchy Leaderboard

Name: AI BENCHY modelbenchmarkresultaten
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-07-24 Geëvalueerde modellen: 222

222/222

Rang	Model	Score	Bedrijf	Totale kosten	Responstijd (gem.)
#109#109	Qwen3.5-27Bnone	6.5	Qwen	$0.058 ↓	4.76s
Modelkaart bekijken Totaal tests 22 Foute tests 14 Betrouwbaarheid 10.0 Slaagpercentage per poging 40.9% Instabiele tests 2 Invoer-tokens 102,316 Uitvoer-tokens 24,321 Redeneer-tokens 0 Responstijd (gem.) 4.76s Responstijd (totaal) 104.71s Responstijd (max) 69.46s Verkeerd antwoord: 12 Instructies niet gevolgd: 2 Anti-AI-trucs : 4.8 Programmeren : 5.8 Gecombineerd : 6.4 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 3.0 Algemene intelligentie : 5.0 Instructies opvolgen : 6.3 Puzzeloplossing : 6.7 Toolaanroepen : 10.0 Algemene kennis : 3.0
#110#110	Gemini 3.1 Flash Lite Previewlow	6.5	Google	$0.646	16.70s
Modelkaart bekijken Totaal tests 22 Foute tests 9 Betrouwbaarheid 10.0 Slaagpercentage per poging 59.1% Instabiele tests 0 Invoer-tokens 110,185 Uitvoer-tokens 14,717 Redeneer-tokens 397,483 Responstijd (gem.) 16.70s Responstijd (totaal) 367.47s Responstijd (max) 309.35s Verkeerd antwoord: 7 Instructies niet gevolgd: 1 Ongeldige toolaanroep: 1 Anti-AI-trucs : 8.3 Programmeren : 5.5 Gecombineerd : 3.0 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 4.0 Instructies opvolgen : 10.0 Puzzeloplossing : 10.0 Toolaanroepen : 10.0 Algemene kennis : 3.0
#111#111	Gemini 3.1 Flash Litelow	6.5	Google	$0.621	16.26s
Modelkaart bekijken Totaal tests 22 Foute tests 10 Betrouwbaarheid 10.0 Slaagpercentage per poging 59.1% Instabiele tests 2 Invoer-tokens 94,224 Uitvoer-tokens 7,759 Redeneer-tokens 390,126 Responstijd (gem.) 16.26s Responstijd (totaal) 357.64s Responstijd (max) 318.02s Verkeerd antwoord: 9 Ongeldige toolaanroep: 1 Anti-AI-trucs : 7.3 Programmeren : 5.5 Gecombineerd : 3.2 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 4.0 Instructies opvolgen : 10.0 Puzzeloplossing : 10.0 Toolaanroepen : 10.0 Algemene kennis : 3.0
#112#112	Gemini 3.1 Flash Lite Previewnone	6.4	Google	$0.052	1.58s
Modelkaart bekijken Totaal tests 22 Foute tests 10 Betrouwbaarheid 10.0 Slaagpercentage per poging 57.6% Instabiele tests 1 Invoer-tokens 120,942 Uitvoer-tokens 14,292 Redeneer-tokens 0 Responstijd (gem.) 1.58s Responstijd (totaal) 34.72s Responstijd (max) 9.27s Verkeerd antwoord: 7 Instructies niet gevolgd: 2 Geen antwoord: 1 Anti-AI-trucs : 7.5 Programmeren : 5.5 Gecombineerd : 3.0 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 4.0 Instructies opvolgen : 10.0 Puzzeloplossing : 10.0 Toolaanroepen : 10.0 Algemene kennis : 3.0
#113#113	Qwen3.5 Plus 2026-02-15none	6.4	Qwen	$0.073 ↓	9.85s
Modelkaart bekijken Totaal tests 22 Foute tests 12 Betrouwbaarheid 10.0 Slaagpercentage per poging 48.5% Instabiele tests 2 Invoer-tokens 102,646 Uitvoer-tokens 29,370 Redeneer-tokens 0 Responstijd (gem.) 9.85s Responstijd (totaal) 157.63s Responstijd (max) 123.00s Verkeerd antwoord: 12 Anti-AI-trucs : 4.8 Programmeren : 4.3 Gecombineerd : 6.5 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 4.4 Instructies opvolgen : 10.0 Puzzeloplossing : 7.7 Toolaanroepen : 10.0 Algemene kennis : 3.0
#115#115	Ring-2.6-1Tmedium	6.3	Inclusionai	$0.103 ↑	68.74s
Modelkaart bekijken Totaal tests 22 Foute tests 11 Betrouwbaarheid 10.0 Slaagpercentage per poging 60.6% Instabiele tests 4 Invoer-tokens 113,604 Uitvoer-tokens 123,079 Redeneer-tokens 42,754 Responstijd (gem.) 68.74s Responstijd (totaal) 1374.86s Responstijd (max) 304.19s Verkeerd antwoord: 6 API-fout: 2 Instructies niet gevolgd: 2 Ongeldige toolaanroep: 1 Anti-AI-trucs : 10.0 Programmeren : 5.3 Gecombineerd : 7.3 Gegevensparsering en extractie : 6.5 Domeinspecifiek : 3.5 Algemene intelligentie : 4.1 Instructies opvolgen : 9.8 Puzzeloplossing : 5.9 Toolaanroepen : 10.0 Algemene kennis : 3.0
#117#117	Gemma 4 31Bmedium	6.3	Google	$0.102 ↓	75.38s
Modelkaart bekijken Totaal tests 22 Foute tests 8 Betrouwbaarheid 10.0 Slaagpercentage per poging 68.2% Instabiele tests 2 Invoer-tokens 94,992 Uitvoer-tokens 34,468 Redeneer-tokens 223,278 Responstijd (gem.) 75.38s Responstijd (totaal) 1507.52s Responstijd (max) 437.40s API-fout: 2 Time-out: 2 Verkeerd antwoord: 2 Ongeldige toolaanroep: 1 Geen antwoord: 1 Anti-AI-trucs : 10.0 Programmeren : 4.3 Gecombineerd : 2.9 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 7.7 Algemene intelligentie : 10.0 Instructies opvolgen : 10.0 Puzzeloplossing : 9.9 Toolaanroepen : 3.0 Algemene kennis : 3.0
#118#118	LongCat 2.0none	6.3	Meituan	$0.044	5.18s
Modelkaart bekijken Totaal tests 22 Foute tests 15 Betrouwbaarheid 10.0 Slaagpercentage per poging 36.4% Instabiele tests 2 Invoer-tokens 108,743 Uitvoer-tokens 9,372 Redeneer-tokens 0 Responstijd (gem.) 5.18s Responstijd (totaal) 113.95s Responstijd (max) 48.38s Verkeerd antwoord: 14 Extra opmaak: 1 Anti-AI-trucs : 4.8 Programmeren : 5.5 Gecombineerd : 6.5 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 3.0 Algemene intelligentie : 5.0 Instructies opvolgen : 6.5 Puzzeloplossing : 4.0 Toolaanroepen : 10.0 Algemene kennis : 3.0
#119#119	Claude Sonnet 5none	6.3	Anthropic	$0.548	6.04s
Modelkaart bekijken Totaal tests 22 Foute tests 14 Betrouwbaarheid 10.0 Slaagpercentage per poging 45.5% Instabiele tests 4 Invoer-tokens 161,035 Uitvoer-tokens 22,511 Redeneer-tokens 0 Responstijd (gem.) 6.04s Responstijd (totaal) 132.85s Responstijd (max) 33.39s Verkeerd antwoord: 7 Extra opmaak: 4 Geen antwoord: 2 Instructies niet gevolgd: 1 Anti-AI-trucs : 5.3 Programmeren : 4.6 Gecombineerd : 6.5 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 4.7 Instructies opvolgen : 6.4 Puzzeloplossing : 6.0 Toolaanroepen : 10.0 Algemene kennis : 3.0
#120#120	MiMo-V2-Flashmedium	6.3	Xiaomi	$0.043 ↑	20.11s
Modelkaart bekijken Totaal tests 21 Foute tests 9 Betrouwbaarheid 10.0 Slaagpercentage per poging 62.1% Instabiele tests 3 Invoer-tokens 40,111 Uitvoer-tokens 12,476 Redeneer-tokens 125,039 Responstijd (gem.) 20.11s Responstijd (totaal) 301.59s Responstijd (max) 96.01s Verkeerd antwoord: 5 API-fout: 1 Extra opmaak: 1 Instructies niet gevolgd: 1 Time-out: 1 Anti-AI-trucs : 8.1 Programmeren : 6.0 Gecombineerd : 4.9 Gegevensparsering en extractie : 6.5 Domeinspecifiek : 5.9 Algemene intelligentie : 4.0 Instructies opvolgen : 10.0 Puzzeloplossing : 7.7 Toolaanroepen : 10.0 Algemene kennis : 3.0
#121#121	Qwen3.5-Flashmedium	6.2	Qwen	$0.139 ↓	84.82s
Modelkaart bekijken Totaal tests 22 Foute tests 10 Betrouwbaarheid 10.0 Slaagpercentage per poging 69.7% Instabiele tests 6 Invoer-tokens 118,499 Uitvoer-tokens 12,284 Redeneer-tokens 490,610 Responstijd (gem.) 84.82s Responstijd (totaal) 1781.22s Responstijd (max) 515.38s Verkeerd antwoord: 4 Time-out: 3 API-fout: 1 Instructies niet gevolgd: 1 Ongeldige toolaanroep: 1 Anti-AI-trucs : 10.0 Programmeren : 3.7 Gecombineerd : 6.4 Gegevensparsering en extractie : 7.3 Domeinspecifiek : 5.3 Algemene intelligentie : 6.1 Instructies opvolgen : 10.0 Puzzeloplossing : 8.2 Toolaanroepen : 10.0 Algemene kennis : 3.0
#122#122	Gemma 4 31Bnone	6.2	Google	$0.020 ↓	5.34s
Modelkaart bekijken Totaal tests 22 Foute tests 12 Betrouwbaarheid 10.0 Slaagpercentage per poging 48.5% Instabiele tests 1 Invoer-tokens 125,728 Uitvoer-tokens 13,317 Redeneer-tokens 0 Responstijd (gem.) 5.34s Responstijd (totaal) 106.82s Responstijd (max) 29.95s Verkeerd antwoord: 9 API-fout: 2 Instructies niet gevolgd: 1 Anti-AI-trucs : 6.5 Programmeren : 5.5 Gecombineerd : 3.8 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 7.7 Algemene intelligentie : 10.0 Instructies opvolgen : 6.5 Puzzeloplossing : 6.5 Toolaanroepen : 3.0 Algemene kennis : 3.0
#123#123	Seed-2.0-Litenone	6.2	Bytedance Seed	$0.066	4.40s
Modelkaart bekijken Totaal tests 22 Foute tests 14 Betrouwbaarheid 10.0 Slaagpercentage per poging 43.9% Instabiele tests 4 Invoer-tokens 142,197 Uitvoer-tokens 14,746 Redeneer-tokens 0 Responstijd (gem.) 4.40s Responstijd (totaal) 96.84s Responstijd (max) 44.58s Verkeerd antwoord: 13 Geen antwoord: 1 Anti-AI-trucs : 3.0 Programmeren : 5.6 Gecombineerd : 3.0 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 3.6 Algemene intelligentie : 10.0 Instructies opvolgen : 10.0 Puzzeloplossing : 5.3 Toolaanroepen : 10.0 Algemene kennis : 3.0
#124#124	GPT-5.6 Lunalow	6.2	OpenAI	$0.249	5.04s
Modelkaart bekijken Totaal tests 22 Foute tests 12 Betrouwbaarheid 10.0 Slaagpercentage per poging 56.1% Instabiele tests 5 Invoer-tokens 96,346 Uitvoer-tokens 8,211 Redeneer-tokens 17,227 Responstijd (gem.) 5.04s Responstijd (totaal) 110.88s Responstijd (max) 19.44s Verkeerd antwoord: 10 Instructies niet gevolgd: 1 Ongeldige toolaanroep: 1 Anti-AI-trucs : 8.3 Programmeren : 5.5 Gecombineerd : 2.8 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 3.6 Algemene intelligentie : 5.0 Instructies opvolgen : 8.5 Puzzeloplossing : 7.6 Toolaanroepen : 10.0 Algemene kennis : 3.0
#125#125	Gemini 2.5 Flashnone	6.2	Google	$0.017	6.20s
Modelkaart bekijken Totaal tests 22 Foute tests 13 Betrouwbaarheid 10.0 Slaagpercentage per poging 43.9% Instabiele tests 1 Invoer-tokens 39,877 Uitvoer-tokens 1,890 Redeneer-tokens 0 Responstijd (gem.) 6.20s Responstijd (totaal) 136.37s Responstijd (max) 118.00s Verkeerd antwoord: 12 Ongeldige toolaanroep: 1 Anti-AI-trucs : 3.0 Programmeren : 5.5 Gecombineerd : 3.0 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.9 Algemene intelligentie : 5.0 Instructies opvolgen : 10.0 Puzzeloplossing : 7.7 Toolaanroepen : 10.0 Algemene kennis : 3.0
#126#126	Qwen3.5-35B-A3Bmedium	6.2	Qwen	$0.837 ↓	112.47s
Modelkaart bekijken Totaal tests 22 Foute tests 11 Betrouwbaarheid 10.0 Slaagpercentage per poging 66.7% Instabiele tests 6 Invoer-tokens 130,388 Uitvoer-tokens 40,630 Redeneer-tokens 786,040 Responstijd (gem.) 112.47s Responstijd (totaal) 2474.28s Responstijd (max) 950.25s Time-out: 5 Geen antwoord: 2 Verkeerd antwoord: 2 API-fout: 1 Ongeldige toolaanroep: 1 Anti-AI-trucs : 10.0 Programmeren : 5.9 Gecombineerd : 3.8 Gegevensparsering en extractie : 7.3 Domeinspecifiek : 4.1 Algemene intelligentie : 2.8 Instructies opvolgen : 10.0 Puzzeloplossing : 8.2 Toolaanroepen : 10.0 Algemene kennis : 3.0
#127#127	Gemini 3.1 Flash Liteminimal	6.1	Google	$0.047	1.86s
Modelkaart bekijken Totaal tests 22 Foute tests 12 Betrouwbaarheid 10.0 Slaagpercentage per poging 51.5% Instabiele tests 3 Invoer-tokens 119,065 Uitvoer-tokens 11,118 Redeneer-tokens 0 Responstijd (gem.) 1.86s Responstijd (totaal) 40.88s Responstijd (max) 12.97s Verkeerd antwoord: 8 Instructies niet gevolgd: 3 Geen antwoord: 1 Anti-AI-trucs : 8.3 Programmeren : 5.5 Gecombineerd : 3.0 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 2.9 Algemene intelligentie : 4.0 Instructies opvolgen : 10.0 Puzzeloplossing : 6.0 Toolaanroepen : 10.0 Algemene kennis : 3.0
#128#128	gpt-oss-120bmedium	6.1	OpenAI	$0.019 ↓	21.91s
Modelkaart bekijken Totaal tests 22 Foute tests 13 Betrouwbaarheid 10.0 Slaagpercentage per poging 50.0% Instabiele tests 5 Invoer-tokens 108,747 Uitvoer-tokens 29,772 Redeneer-tokens 68,044 Responstijd (gem.) 21.91s Responstijd (totaal) 328.70s Responstijd (max) 68.16s Verkeerd antwoord: 9 Instructies niet gevolgd: 3 Ongeldige toolaanroep: 1 Anti-AI-trucs : 6.7 Programmeren : 5.9 Gecombineerd : 6.5 Gegevensparsering en extractie : 6.4 Domeinspecifiek : 2.9 Algemene intelligentie : 4.3 Instructies opvolgen : 9.9 Puzzeloplossing : 5.3 Toolaanroepen : 9.8 Algemene kennis : 3.0
#129#129	Gemini 3.1 Flash Litenone	6.1	Google	$0.046	1.75s
Modelkaart bekijken Totaal tests 22 Foute tests 13 Betrouwbaarheid 10.0 Slaagpercentage per poging 50.0% Instabiele tests 4 Invoer-tokens 118,050 Uitvoer-tokens 10,723 Redeneer-tokens 0 Responstijd (gem.) 1.75s Responstijd (totaal) 38.60s Responstijd (max) 16.25s Verkeerd antwoord: 11 Instructies niet gevolgd: 1 Geen antwoord: 1 Anti-AI-trucs : 7.5 Programmeren : 5.5 Gecombineerd : 3.0 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 2.9 Algemene intelligentie : 4.0 Instructies opvolgen : 10.0 Puzzeloplossing : 6.3 Toolaanroepen : 10.0 Algemene kennis : 3.0
#131#131	Qwen3.6 Flashnone	6.1	Qwen	$0.062 ↓	3.74s
Modelkaart bekijken Totaal tests 22 Foute tests 15 Betrouwbaarheid 10.0 Slaagpercentage per poging 34.9% Instabiele tests 1 Invoer-tokens 139,788 Uitvoer-tokens 30,947 Redeneer-tokens 0 Responstijd (gem.) 3.74s Responstijd (totaal) 82.38s Responstijd (max) 48.79s Verkeerd antwoord: 12 Ongeldige toolaanroep: 2 Instructies niet gevolgd: 1 Anti-AI-trucs : 3.1 Programmeren : 5.4 Gecombineerd : 3.8 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 10.0 Instructies opvolgen : 6.3 Puzzeloplossing : 3.5 Toolaanroepen : 10.0 Algemene kennis : 3.0
#132#132	Qwen3.5-Flashnone	6.1	Qwen	$0.073 ↓	25.28s
Modelkaart bekijken Totaal tests 22 Foute tests 14 Betrouwbaarheid 10.0 Slaagpercentage per poging 39.4% Instabiele tests 2 Invoer-tokens 282,347 Uitvoer-tokens 209,201 Redeneer-tokens 0 Responstijd (gem.) 25.28s Responstijd (totaal) 556.24s Responstijd (max) 480.96s Verkeerd antwoord: 13 Ongeldige toolaanroep: 1 Anti-AI-trucs : 3.5 Programmeren : 5.5 Gecombineerd : 2.9 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 7.7 Algemene intelligentie : 10.0 Instructies opvolgen : 6.3 Puzzeloplossing : 3.1 Toolaanroepen : 10.0 Algemene kennis : 3.0
#133#133	Qwen3.5 Plus 2026-04-20none	6.1	Qwen	$0.122 ↓	13.56s
Modelkaart bekijken Totaal tests 22 Foute tests 14 Betrouwbaarheid 10.0 Slaagpercentage per poging 43.9% Instabiele tests 4 Invoer-tokens 94,468 Uitvoer-tokens 51,487 Redeneer-tokens 0 Responstijd (gem.) 13.56s Responstijd (totaal) 298.31s Responstijd (max) 206.05s Verkeerd antwoord: 12 Instructies niet gevolgd: 2 Anti-AI-trucs : 4.8 Programmeren : 3.9 Gecombineerd : 6.4 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 4.8 Instructies opvolgen : 6.2 Puzzeloplossing : 6.7 Toolaanroepen : 10.0 Algemene kennis : 3.0
#134#134	Qwen3.5-35B-A3Bnone	6.1	Qwen	$0.106 ↓	12.72s
Modelkaart bekijken Totaal tests 22 Foute tests 15 Betrouwbaarheid 10.0 Slaagpercentage per poging 43.9% Instabiele tests 4 Invoer-tokens 134,521 Uitvoer-tokens 86,614 Redeneer-tokens 0 Responstijd (gem.) 12.72s Responstijd (totaal) 279.90s Responstijd (max) 209.15s Verkeerd antwoord: 12 Instructies niet gevolgd: 2 Ongeldige toolaanroep: 1 Anti-AI-trucs : 3.4 Programmeren : 5.5 Gecombineerd : 3.8 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 7.7 Algemene intelligentie : 6.5 Instructies opvolgen : 6.3 Puzzeloplossing : 3.7 Toolaanroepen : 10.0 Algemene kennis : 3.0
#135#135	GPT-5 Nanomedium	6.1	OpenAI	$0.114	54.87s
Modelkaart bekijken Totaal tests 22 Foute tests 13 Betrouwbaarheid 10.0 Slaagpercentage per poging 56.1% Instabiele tests 8 Invoer-tokens 94,935 Uitvoer-tokens 12,042 Redeneer-tokens 261,056 Responstijd (gem.) 54.87s Responstijd (totaal) 822.99s Responstijd (max) 227.89s Verkeerd antwoord: 9 Instructies niet gevolgd: 2 Geen antwoord: 1 Time-out: 1 Anti-AI-trucs : 6.5 Programmeren : 7.0 Gecombineerd : 6.4 Gegevensparsering en extractie : 3.7 Domeinspecifiek : 5.2 Algemene intelligentie : 4.1 Instructies opvolgen : 9.8 Puzzeloplossing : 5.3 Toolaanroepen : 10.0 Algemene kennis : 3.0
#136#136	Nemotron 3 Ultranone	6.1	NVIDIA	$0.072 ↕	3.87s
Modelkaart bekijken Totaal tests 22 Foute tests 14 Betrouwbaarheid 10.0 Slaagpercentage per poging 42.4% Instabiele tests 2 Invoer-tokens 101,275 Uitvoer-tokens 9,474 Redeneer-tokens 0 Responstijd (gem.) 3.87s Responstijd (totaal) 85.15s Responstijd (max) 37.50s Verkeerd antwoord: 12 API-fout: 1 Instructies niet gevolgd: 1 Anti-AI-trucs : 3.5 Programmeren : 5.5 Gecombineerd : 3.0 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 5.0 Instructies opvolgen : 10.0 Puzzeloplossing : 5.9 Toolaanroepen : 10.0 Algemene kennis : 3.0
#139#139	GPT-5.6 Terranone	6.0	OpenAI	$0.349	1.65s
Modelkaart bekijken Totaal tests 22 Foute tests 14 Betrouwbaarheid 10.0 Slaagpercentage per poging 42.4% Instabiele tests 3 Invoer-tokens 102,259 Uitvoer-tokens 6,203 Redeneer-tokens 0 Responstijd (gem.) 1.65s Responstijd (totaal) 36.28s Responstijd (max) 10.07s Verkeerd antwoord: 11 Instructies niet gevolgd: 1 Ongeldige toolaanroep: 1 Geen antwoord: 1 Anti-AI-trucs : 4.8 Programmeren : 5.5 Gecombineerd : 2.9 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 5.0 Instructies opvolgen : 8.5 Puzzeloplossing : 5.3 Toolaanroepen : 9.6 Algemene kennis : 3.0
#141#141	Mimo V2 Omnimedium	5.9	Xiaomi	$0.683 ↓	41.16s
Modelkaart bekijken Totaal tests 21 Foute tests 11 Betrouwbaarheid 10.0 Slaagpercentage per poging 53.0% Instabiele tests 3 Invoer-tokens 37,007 Uitvoer-tokens 1,952 Redeneer-tokens 357,306 Responstijd (gem.) 41.16s Responstijd (totaal) 823.26s Responstijd (max) 299.23s Verkeerd antwoord: 5 Instructies niet gevolgd: 2 Geen antwoord: 2 API-fout: 1 Extra opmaak: 1 Anti-AI-trucs : 10.0 Programmeren : 3.3 Gecombineerd : 5.0 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 3.0 Algemene intelligentie : 5.4 Instructies opvolgen : 8.3 Puzzeloplossing : 5.9 Toolaanroepen : 10.0 Algemene kennis : 3.0
#142#142	Hy3 previewhigh	5.9	Tencent	$0.048 ↕	56.57s
Modelkaart bekijken Totaal tests 21 Foute tests 10 Betrouwbaarheid 10.0 Slaagpercentage per poging 53.0% Instabiele tests 2 Invoer-tokens 25,987 Uitvoer-tokens 216,719 Redeneer-tokens 0 Responstijd (gem.) 56.57s Responstijd (totaal) 848.59s Responstijd (max) 149.94s API-fout: 7 Verkeerd antwoord: 3 Anti-AI-trucs : 6.4 Programmeren : 5.3 Gecombineerd : 5.0 Gegevensparsering en extractie : 6.5 Domeinspecifiek : 5.3 Algemene intelligentie : 3.0 Instructies opvolgen : 10.0 Puzzeloplossing : 7.7 Toolaanroepen : 10.0 Algemene kennis : 3.0
#143#143	GPT-5.4 Mininone	5.9	OpenAI	$0.095	1.53s
Modelkaart bekijken Totaal tests 22 Foute tests 16 Betrouwbaarheid 10.0 Slaagpercentage per poging 33.3% Instabiele tests 3 Invoer-tokens 79,067 Uitvoer-tokens 7,880 Redeneer-tokens 0 Responstijd (gem.) 1.53s Responstijd (totaal) 33.74s Responstijd (max) 9.92s Verkeerd antwoord: 13 Instructies niet gevolgd: 3 Anti-AI-trucs : 3.1 Programmeren : 5.5 Gecombineerd : 6.5 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 3.5 Algemene intelligentie : 4.8 Instructies opvolgen : 6.3 Puzzeloplossing : 5.4 Toolaanroepen : 3.0 Algemene kennis : 3.0
#145#145	Kimi K2.6none	5.8	Moonshot AI	$0.184 ↓	19.58s
Modelkaart bekijken Totaal tests 22 Foute tests 15 Betrouwbaarheid 10.0 Slaagpercentage per poging 34.9% Instabiele tests 2 Invoer-tokens 116,970 Uitvoer-tokens 30,253 Redeneer-tokens 0 Responstijd (gem.) 19.58s Responstijd (totaal) 430.85s Responstijd (max) 238.89s Verkeerd antwoord: 11 Instructies niet gevolgd: 3 Geen antwoord: 1 Anti-AI-trucs : 4.6 Programmeren : 5.5 Gecombineerd : 3.0 Gegevensparsering en extractie : 10.0 Domeinspecifiek : 5.3 Algemene intelligentie : 5.4 Instructies opvolgen : 6.5 Puzzeloplossing : 3.1 Toolaanroepen : 10.0 Algemene kennis : 3.0

←

1 3 4 5 8

→

Snelle vergelijking

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

AI Benchy Leaderboard

Modellen filteren

Snelle vergelijking