Clasament Combinat x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Combinat, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Gemini 3 Flash Preview 2

Motive de eșec

Apel de instrument invalid91 Răspuns greșit68 Fără răspuns29 Eroare API26 Timp expirat5 Formatare suplimentară1 Nu a urmat instrucțiunile1

Categorii

Specific domeniului412 Trucuri anti-AI293 Programare252 Rezolvare de puzzle-uri201 Cultură generală168 Combinat68 Respectarea instrucțiunilor61 Inteligență generală59 Parsare și extragere de date41 Apelare instrumente3

63/63

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#61	Gemini 3 Flash Preview low	Google	2	3.0	$0.177	0/2	10.2s
Total teste 2 Teste greșite 2 Cost total $0.177 Timp de răspuns (mediu) 10.2s
#139	GPT-5.4 none	OpenAI	2	3.0	$0.397	0/2	9.26s
Total teste 2 Teste greșite 2 Cost total $0.397 Timp de răspuns (mediu) 9.26s
#165	Mistral Small 4 none	Mistral	2	3.0	$0.022	0/2	7.44s
Total teste 2 Teste greșite 2 Cost total $0.022 Timp de răspuns (mediu) 7.44s
#177	Nemotron 3 Super none	NVIDIA	2	3.0	$0.008	0/2	18.2s
Total teste 2 Teste greșite 2 Cost total $0.008 Timp de răspuns (mediu) 18.2s
#189	Mercury 2 none	Inception	2	3.0	$0.030	0/2	2.56s
Total teste 2 Teste greșite 2 Cost total $0.030 Timp de răspuns (mediu) 2.56s
#20	Grok 4.5 low	X AI	1	6.5	$0.935	1/2	12.8s
Total teste 2 Teste greșite 1 Cost total $0.935 Timp de răspuns (mediu) 12.8s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.3	$0.751	1/2	66.0s
Total teste 2 Teste greșite 1 Cost total $0.751 Timp de răspuns (mediu) 66.0s
#59	Qwen3.7 Max none	Qwen	1	6.5	$0.197	1/2	37.2s
Total teste 2 Teste greșite 1 Cost total $0.197 Timp de răspuns (mediu) 37.2s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	1/2	8.37s
Total teste 2 Teste greșite 1 Cost total $0.524 Timp de răspuns (mediu) 8.37s
#87	GPT-5.5 none	OpenAI	1	6.5	$0.544	1/2	8.90s
Total teste 2 Teste greșite 1 Cost total $0.544 Timp de răspuns (mediu) 8.90s
#89	Gemini 3 Flash Preview none	Google	1	3.8	$0.085	0/2	12.4s
Total teste 2 Teste greșite 2 Cost total $0.085 Timp de răspuns (mediu) 12.4s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
Total teste 2 Teste greșite 2 Cost total $0.476 Timp de răspuns (mediu) 183.1s
#98	Qwen3.6 Max Preview none	Qwen	1	6.5	$0.231	1/2	61.6s
Total teste 2 Teste greșite 1 Cost total $0.231 Timp de răspuns (mediu) 61.6s
#103	Qwen3.5-27B none	Qwen	1	6.4	$0.090	1/2	39.4s
Total teste 2 Teste greșite 1 Cost total $0.090 Timp de răspuns (mediu) 39.4s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
Total teste 2 Teste greșite 2 Cost total $0.646 Timp de răspuns (mediu) 160.6s

1 2 3 4 5

→

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Combinat: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat