AI BENCHY Compare
Google: Gemini 3.1 Flash Lite Preview vs OpenAI: GPT-5.4
Vergleichen:
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-03-05
| Metrik | Google: Gemini 3.1 Flash Lite Preview high Veröffentlichung: 2026-03-03 | OpenAI: GPT-5.4 medium Veröffentlichung: 2026-03-05 |
|---|---|---|
| Ø-Score | 8.1 | 8.2 |
| Korrekte Tests | ||
| Rang | #10 | #7 |
| Konsistenz | 9.6 | 8.9 |
| Kosten pro Ergebnis | 20.937 | 6.533 |
| Gesamtkosten | $2.303 | $0.784 |
| Erfolgsquote pro Versuch | 75.6% | 86.7% |
| Instabile Tests | 1 | 2 |
| common.totalAttempts | 45 (15 x 3) | 45 (15 x 3) |
| Ausgabe-Token | 1,166 | 1,611 |
| Denk-Token | 1,529,395 | 46,321 |
| Antwortzeit (Durchschnitt) | 73.07s | 21.06s |
| Antwortzeit (Maximum) | 280.52s | 100.41s |
| Antwortzeit (Gesamt) | 1096.07s | 315.95s |
Score vs. Gesamtkosten
Antwortzeit (Durchschnitt)
Ø-Score vs Antwortzeit (Durchschnitt)
Kategorieaufschlüsselung
| Anti-KI-Tricks | Punktzahl | Konsistenz | Erfolgsquote pro Versuch | Instabile Tests | Korrekte Tests | Antwortzeit (Durchschnitt) | Ausgabe-Token | Denk-Token |
|---|---|---|---|---|---|---|---|---|
| Google: Gemini 3.1 Flash Lite Preview | 10.0 | 10.0 | 100.0% | 0 | 43.87s | 144 | 193,077 | |
| OpenAI: GPT-5.4 | 10.0 | 10.0 | 100.0% | 0 | 5.02s | 216 | 1,466 |
| Kombiniert | Punktzahl | Konsistenz | Erfolgsquote pro Versuch | Instabile Tests | Korrekte Tests | Antwortzeit (Durchschnitt) | Ausgabe-Token | Denk-Token |
|---|---|---|---|---|---|---|---|---|
| Google: Gemini 3.1 Flash Lite Preview | 10.0 | 10.0 | 100.0% | 0 | 280.52s | 335 | 380,440 | |
| OpenAI: GPT-5.4 | 10.0 | 10.0 | 100.0% | 0 | 20.57s | 301 | 3,543 |
| Datenanalyse und -extraktion | Punktzahl | Konsistenz | Erfolgsquote pro Versuch | Instabile Tests | Korrekte Tests | Antwortzeit (Durchschnitt) | Ausgabe-Token | Denk-Token |
|---|---|---|---|---|---|---|---|---|
| Google: Gemini 3.1 Flash Lite Preview | 9.9 | 10.0 | 100.0% | 0 | 7.16s | 279 | 6,186 | |
| OpenAI: GPT-5.4 | 9.9 | 10.0 | 100.0% | 0 | 5.32s | 234 | 804 |
| Domänenspezifisch | Punktzahl | Konsistenz | Erfolgsquote pro Versuch | Instabile Tests | Korrekte Tests | Antwortzeit (Durchschnitt) | Ausgabe-Token | Denk-Token |
|---|---|---|---|---|---|---|---|---|
| Google: Gemini 3.1 Flash Lite Preview | 4.0 | 10.0 | 33.3% | 0 | 127.58s | 18 | 566,202 | |
| OpenAI: GPT-5.4 | 4.0 | 7.2 | 44.4% | 1 | 74.27s | 61 | 34,748 |
| Befolgung von Anweisungen | Punktzahl | Konsistenz | Erfolgsquote pro Versuch | Instabile Tests | Korrekte Tests | Antwortzeit (Durchschnitt) | Ausgabe-Token | Denk-Token |
|---|---|---|---|---|---|---|---|---|
| Google: Gemini 3.1 Flash Lite Preview | 9.0 | 6.9 | 66.7% | 1 | 70.07s | 69 | 190,053 | |
| OpenAI: GPT-5.4 | 10.0 | 10.0 | 100.0% | 0 | 3.11s | 93 | 897 |
| Puzzle Solving | Punktzahl | Konsistenz | Erfolgsquote pro Versuch | Instabile Tests | Korrekte Tests | Antwortzeit (Durchschnitt) | Ausgabe-Token | Denk-Token |
|---|---|---|---|---|---|---|---|---|
| Google: Gemini 3.1 Flash Lite Preview | 7.0 | 10.0 | 66.7% | 0 | 46.33s | 87 | 190,953 | |
| OpenAI: GPT-5.4 | 7.0 | 7.2 | 88.9% | 1 | 9.13s | 442 | 3,832 |
| Werkzeugaufrufe | Punktzahl | Konsistenz | Erfolgsquote pro Versuch | Instabile Tests | Korrekte Tests | Antwortzeit (Durchschnitt) | Ausgabe-Token | Denk-Token |
|---|---|---|---|---|---|---|---|---|
| Google: Gemini 3.1 Flash Lite Preview | 10.0 | 10.0 | 100.0% | 0 | 7.73s | 234 | 2,484 | |
| OpenAI: GPT-5.4 | 10.0 | 10.0 | 100.0% | 0 | 13.28s | 264 | 1,031 |
Schnellvergleich
Vergleichspaar wechseln
Gemini 3 Flash PreviewlowvsGPT-5.4mediumGemini 3.1 Flash Lite PreviewhighvsQwen3.5-122B-A10BmediumGemini 3.1 Flash Lite PreviewhighvsGPT-5.2 ChatnoneGemini 3.1 Flash Lite PreviewhighvsQwen3.5-27BmediumDeepSeek V3.2mediumvsGemini 3.1 Flash Lite PreviewhighClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewhighGemini 3.1 Flash Lite PreviewlowvsGPT-5.4mediumGemini 3.1 Flash Lite PreviewhighvsGPT-5.3-CodexmediumGemini 3.1 Flash Lite PreviewhighvsStep 3.5 FlashmediumKostenlos verfügbarGemini 3.1 Flash Lite PreviewhighvsMiMo-V2-FlashmediumGemini 3.1 Flash Lite PreviewhighvsGLM 5mediumGemini 3.1 Flash Lite PreviewhighvsGPT-5.3 Chatnone