Clasament Trucuri anti-AI x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Trucuri anti-AI, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

293

Modelul cel mai afectat

Seed-2.0-Lite 4

Motive de eșec

Răspuns greșit293 Nu a urmat instrucțiunile33 Formatare suplimentară20 Eroare API14 Fără răspuns4 Timp expirat4

Categorii

Specific domeniului421 Trucuri anti-AI293 Programare259 Rezolvare de puzzle-uri204 Cultură generală172 Combinat69 Inteligență generală62 Respectarea instrucțiunilor61 Parsare și extragere de date41 Apelare instrumente3

140/140

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#44	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
Total teste 4 Teste greșite 2 Cost total $2.057 Timp de răspuns (mediu) 2.98s
#48	GPT-5.6 Luna high	OpenAI	1	8.3	$1.017	3/4	2.99s
Total teste 4 Teste greșite 1 Cost total $1.017 Timp de răspuns (mediu) 2.99s
#49	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.041	3/4	28.5s
Total teste 4 Teste greșite 1 Cost total $0.041 Timp de răspuns (mediu) 28.5s
#54	GPT-5.6 Luna medium	OpenAI	1	8.3	$0.352	3/4	2.52s
Total teste 4 Teste greșite 1 Cost total $0.352 Timp de răspuns (mediu) 2.52s
#57	GPT-5.4 Nano medium	OpenAI	1	8.3	$0.138	3/4	4.52s
Total teste 4 Teste greșite 1 Cost total $0.138 Timp de răspuns (mediu) 4.52s
#58	GPT-5.3 Chat none	OpenAI	1	6.7	$0.571	2/4	3.86s
Total teste 4 Teste greșite 2 Cost total $0.571 Timp de răspuns (mediu) 3.86s
#59	GPT-5.6 Terra low	OpenAI	1	8.3	$0.519	3/4	2.36s
Total teste 4 Teste greșite 1 Cost total $0.519 Timp de răspuns (mediu) 2.36s
#60	GPT-5.4 Mini medium	OpenAI	1	8.6	$0.756	3/4	4.05s
Total teste 4 Teste greșite 1 Cost total $0.756 Timp de răspuns (mediu) 4.05s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	8.2	$0.437	3/4	45.8s
Total teste 4 Teste greșite 1 Cost total $0.437 Timp de răspuns (mediu) 45.8s
#67	Claude Sonnet 4.6 none	Anthropic	1	4.8	$0.661	1/4	2.94s
Total teste 4 Teste greșite 3 Cost total $0.661 Timp de răspuns (mediu) 2.94s
#71	Step 3.7 Flash low	Stepfun	1	8.7	$0.454	3/4	4.02s
Total teste 4 Teste greșite 1 Cost total $0.454 Timp de răspuns (mediu) 4.02s
#72	Kimi K2.6 medium	Moonshot AI	1	7.0	$1.036	2/4	11.6s
Total teste 4 Teste greșite 2 Cost total $1.036 Timp de răspuns (mediu) 11.6s
#79	Grok 4.20 medium	X AI	1	8.2	$0.777	3/4	3.95s
Total teste 4 Teste greșite 1 Cost total $0.777 Timp de răspuns (mediu) 3.95s
#81	Kimi K2.5 medium	Moonshot AI	1	7.3	$0.600	2/4	51.4s
Total teste 4 Teste greșite 2 Cost total $0.600 Timp de răspuns (mediu) 51.4s
#82	Mercury 2 medium	Inception	1	6.9	$0.093	2/4	1.12s
Total teste 4 Teste greșite 2 Cost total $0.093 Timp de răspuns (mediu) 1.12s

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Trucuri anti-AI: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat