AI BENCHY Compare
Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite Preview
Compară:
Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-03
| Metrică | Anthropic: Claude Sonnet 4.6 medium Lansare: 2026-02-17 | Google: Gemini 3.1 Flash Lite Preview none Lansare: 2026-03-03 |
|---|---|---|
| Rang | #11 | #10 |
| Scor mediu | 7.43 | 7.70 |
| Consistență | 9.40 | 9.54 |
| Cost per rezultat | 8.105 | 0.116 |
| Cost total | $0.811 | $0.011 |
| Teste corecte | ||
| Rată de trecere pe încercare | 73.8% | 69.1% |
| Teste instabile | 1 | 1 |
| Tokenuri de ieșire | 29,098 | 4,307 |
| Tokenuri de raționament | 20,435 | 0 |
Scor vs cost total
Defalcare pe categorii
| Trucuri anti-AI | Scor | Consistență | Rată de trecere pe încercare | Teste instabile | Teste corecte | Tokenuri de ieșire | Tokenuri de raționament |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 7.00 | 10.00 | 66.7% | 0 | 1,031 | 1,093 | |
| Google: Gemini 3.1 Flash Lite Preview | 6.00 | 7.85 | 55.6% | 1 | 1,086 | 0 |
| Parsare și extragere de date | Scor | Consistență | Rată de trecere pe încercare | Teste instabile | Teste corecte | Tokenuri de ieșire | Tokenuri de raționament |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 727 | 907 | |
| Google: Gemini 3.1 Flash Lite Preview | 9.88 | 10.00 | 100.0% | 0 | 399 | 0 |
| Specific domeniului | Scor | Consistență | Rată de trecere pe încercare | Teste instabile | Teste corecte | Tokenuri de ieșire | Tokenuri de raționament |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 1.00 | 7.21 | 11.1% | 1 | 25,790 | 16,919 | |
| Google: Gemini 3.1 Flash Lite Preview | 4.00 | 10.00 | 33.3% | 0 | 568 | 0 |
| Respectarea instrucțiunilor | Scor | Consistență | Rată de trecere pe încercare | Teste instabile | Teste corecte | Tokenuri de ieșire | Tokenuri de raționament |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 316 | 523 | |
| Google: Gemini 3.1 Flash Lite Preview | 9.00 | 10.00 | 50.0% | 0 | 574 | 0 |
| Puzzle Solving | Scor | Consistență | Rată de trecere pe încercare | Teste instabile | Teste corecte | Tokenuri de ieșire | Tokenuri de raționament |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 579 | 642 | |
| Google: Gemini 3.1 Flash Lite Preview | 10.00 | 10.00 | 100.0% | 0 | 898 | 0 |
| Apelare instrumente | Scor | Consistență | Rată de trecere pe încercare | Teste instabile | Teste corecte | Tokenuri de ieșire | Tokenuri de raționament |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 655 | 351 | |
| Google: Gemini 3.1 Flash Lite Preview | 10.00 | 10.00 | 100.0% | 0 | 782 | 0 |
Comparație rapidă
Schimbă perechea de comparație
Claude Sonnet 4.6mediumvsGPT-5.2 ChatnoneClaude Sonnet 4.6mediumvsGPT-5.3 ChatnoneClaude Sonnet 4.6mediumvsGemini 3 Flash PreviewnoneGemini 3.1 Flash Lite PreviewnonevsGPT-5.3-CodexmediumClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewhighClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewlowGemini 3.1 Flash Lite PreviewnonevsGLM 5mediumGemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponibil gratuitDeepSeek V3.2mediumvsGemini 3.1 Flash Lite PreviewnoneGemini 3.1 Flash Lite PreviewnonevsGPT-5.2mediumGemini 3.1 Flash Lite PreviewnonevsQwen3.5-27BmediumGemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium