Compară Grafice

Limbă:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite Preview

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-03

Metrică	Anthropic: Claude Sonnet 4.6 medium Lansare: 2026-02-17	Google: Gemini 3.1 Flash Lite Preview none Lansare: 2026-03-03
Rang	#11	#10
Scor mediu	7.43	7.70
Consistență	9.40	9.54
Cost per rezultat	8.105	0.116
Cost total	$0.811	$0.011
Teste corecte
Rată de trecere pe încercare	73.8%	69.1%
Teste instabile	1	1
Tokenuri de ieșire	29,098	4,307
Tokenuri de raționament	20,435	0

Top modele după scor

Scor vs cost total

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Sonnet 4.6	7.00	10.00	66.7%	0		1,031	1,093
Google: Gemini 3.1 Flash Lite Preview	6.00	7.85	55.6%	1		1,086	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		727	907
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		399	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Sonnet 4.6	1.00	7.21	11.1%	1		25,790	16,919
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		568	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		316	523
Google: Gemini 3.1 Flash Lite Preview	9.00	10.00	50.0%	0		574	0

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		579	642
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		898	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		655	351
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		782	0

Comparație rapidă

Schimbă perechea de comparație

Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponibil gratuit DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium