Clasament Trucuri anti-AI x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Trucuri anti-AI, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

293

Modelul cel mai afectat

Seed-2.0-Lite 4

Motive de eșec

Răspuns greșit293 Nu a urmat instrucțiunile33 Formatare suplimentară20 Eroare API14 Fără răspuns4 Timp expirat4

Categorii

Specific domeniului421 Trucuri anti-AI293 Programare259 Rezolvare de puzzle-uri204 Cultură generală172 Combinat69 Inteligență generală62 Respectarea instrucțiunilor61 Parsare și extragere de date41 Apelare instrumente3

140/140

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
Total teste 4 Teste greșite 2 Cost total $0.544 Timp de răspuns (mediu) 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
Total teste 4 Teste greșite 2 Cost total $0.300 Timp de răspuns (mediu) 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
Total teste 4 Teste greșite 3 Cost total $0.068 Timp de răspuns (mediu) 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
Total teste 4 Teste greșite 2 Cost total $0.621 Timp de răspuns (mediu) 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
Total teste 4 Teste greșite 2 Cost total $0.021 Timp de răspuns (mediu) 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
Total teste 4 Teste greșite 2 Cost total $0.046 Timp de răspuns (mediu) 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
Total teste 4 Teste greșite 2 Cost total $0.114 Timp de răspuns (mediu) 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
Total teste 4 Teste greșite 2 Cost total $0.041 Timp de răspuns (mediu) 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
Total teste 4 Teste greșite 3 Cost total $0.008 Timp de răspuns (mediu) 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
Total teste 4 Teste greșite 4 Cost total $0.025 Timp de răspuns (mediu) 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
Total teste 4 Teste greșite 4 Cost total $0.000 Timp de răspuns (mediu) 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
Total teste 4 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
Total teste 4 Teste greșite 3 Cost total $0.166 Timp de răspuns (mediu) 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
Total teste 4 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
Total teste 4 Teste greșite 3 Cost total $0.007 Timp de răspuns (mediu) 844ms

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Trucuri anti-AI: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat