Clasament Combinat x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Combinat, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Gemini 3 Flash Preview 2

Motive de eșec

Apel de instrument invalid91 Răspuns greșit68 Fără răspuns29 Eroare API26 Timp expirat5 Formatare suplimentară1 Nu a urmat instrucțiunile1

Categorii

Specific domeniului412 Trucuri anti-AI293 Programare252 Rezolvare de puzzle-uri201 Cultură generală168 Combinat68 Respectarea instrucțiunilor61 Inteligență generală59 Parsare și extragere de date41 Apelare instrumente3

63/63

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
Total teste 2 Teste greșite 2 Cost total $0.621 Timp de răspuns (mediu) 161.2s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
Total teste 2 Teste greșite 2 Cost total $0.052 Timp de răspuns (mediu) 6.23s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.5	$0.073	1/2	64.8s
Total teste 2 Teste greșite 1 Cost total $0.073 Timp de răspuns (mediu) 64.8s
#109	Mimo V2 PRO medium	Xiaomi	1	2.3	$0.333	0/1	64.7s
Total teste 1 Teste greșite 1 Cost total $0.333 Timp de răspuns (mediu) 64.7s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	28.4s
Total teste 2 Teste greșite 1 Cost total $0.044 Timp de răspuns (mediu) 28.4s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
Total teste 2 Teste greșite 2 Cost total $0.035 Timp de răspuns (mediu) 30.0s
#116	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.066	0/2	25.6s
Total teste 2 Teste greșite 2 Cost total $0.066 Timp de răspuns (mediu) 25.6s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
Total teste 2 Teste greșite 2 Cost total $0.249 Timp de răspuns (mediu) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
Total teste 2 Teste greșite 2 Cost total $0.017 Timp de răspuns (mediu) 61.2s
#120	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.047	0/2	7.75s
Total teste 2 Teste greșite 2 Cost total $0.047 Timp de răspuns (mediu) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.046	0/2	9.49s
Total teste 2 Teste greșite 2 Cost total $0.046 Timp de răspuns (mediu) 9.49s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
Total teste 2 Teste greșite 2 Cost total $0.073 Timp de răspuns (mediu) 243.6s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.4	$0.122	1/2	109.7s
Total teste 2 Teste greșite 1 Cost total $0.122 Timp de răspuns (mediu) 109.7s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.8	$0.106	0/2	128.3s
Total teste 2 Teste greșite 2 Cost total $0.106 Timp de răspuns (mediu) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
Total teste 2 Teste greșite 2 Cost total $0.095 Timp de răspuns (mediu) 21.1s

←

1 2 3 4 5

→

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Combinat: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat