| Anti-AI Tricks | 1/2 | 5.50 सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण. क्रमांक: #13/27 ५४% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 Google: Gemini 3 Flash Preview 5.50 Anthropic: Claude Sonnet 4.6 1.00 1.00 10.00 | 10.00 सुसंगतता गुण रीपीट्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी). क्रमांक: #1/27 १००% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 Anthropic: Claude Opus 4.6 1.62 1.62 10.00 | 50.0% प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रीपीटमधील एकूण प्रयत्न. क्रमांक: #15/27 ४६% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 100.0% Google: Gemini 3 Pro Preview 100.0% Qwen: Qwen3.5 Plus 2026-02-15 100.0% OpenAI: GPT-5.2 100.0% Google: Gemini 3 Flash Preview 50.0% Anthropic: Claude Sonnet 4.6 0.0% 0.0% 100.0% | 0 अस्थिर चाचण्यांत रीपीट्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल). क्रमांक: #1/27 १००% Google: Gemini 3 Flash Preview ० Google: Gemini 3.1 Pro Preview ० Google: Gemini 3 Pro Preview ० Qwen: Qwen3.5 Plus 2026-02-15 ० OpenAI: GPT-5.2 ० Anthropic: Claude Opus 4.6 २ ० २ | - अंतिम उत्तर बरोबर आहे की नाही यापासून स्वतंत्रपणे तर्काची स्पष्टता, कार्यक्षमता आणि सुसंगती मोजते. टीप: काही Gemini मॉडेल्समध्ये फक्त अंशतः reasoning मजकूर उपलब्ध असतो, त्यामुळे reasoning स्कोअर कमी दिसू शकतो. क्रमांक: #12/17 ३१% OpenAI: gpt-oss-120b 10.00 Anthropic: Claude Opus 4.6 10.00 StepFun: Step 3.5 Flash 10.00 Anthropic: Claude Sonnet 4.6 9.83 MoonshotAI: Kimi K2.5 9.77 Google: Gemini 3 Flash Preview 7.17 Qwen: Qwen3 Coder Next 1.00 1.00 10.00 | $0.00016 एकूण खर्च क्रमांक: #9/27 ६९% StepFun: Step 3.5 Flash $0.00000 Z.ai: GLM 4.7 Flash $0.00003 Xiaomi: MiMo-V2-Flash $0.00004 Qwen: Qwen3 Coder Next $0.00005 Qwen: Qwen3 Coder Next $0.00005 Google: Gemini 3 Flash Preview $0.00016 Anthropic: Claude Opus 4.6 $0.03036 $0.00000 $0.03036 |
| Data parsing and extraction | 1/2 | 5.50 सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण. क्रमांक: #16/27 ४२% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 Google: Gemini 3 Flash Preview 5.50 Z.ai: GLM 4.7 Flash 0.50 0.50 10.00 | 5.81 सुसंगतता गुण रीपीट्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी). क्रमांक: #20/27 २७% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 Google: Gemini 3 Flash Preview 5.81 Z.ai: GLM 5 5.56 5.56 10.00 | 83.3% प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रीपीटमधील एकूण प्रयत्न. क्रमांक: #17/27 ३८% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 100.0% Google: Gemini 3 Pro Preview 100.0% Qwen: Qwen3.5 Plus 2026-02-15 100.0% OpenAI: GPT-5.2 100.0% Google: Gemini 3 Flash Preview 83.3% Xiaomi: MiMo-V2-Flash 16.7% 0.0% 100.0% | 1 अस्थिर चाचण्यांत रीपीट्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल). क्रमांक: #21/27 २३% Google: Gemini 3 Flash Preview ० Google: Gemini 3.1 Pro Preview ० Google: Gemini 3 Pro Preview ० Qwen: Qwen3.5 Plus 2026-02-15 ० OpenAI: GPT-5.2 ० Google: Gemini 3 Flash Preview १ Z.ai: GLM 5 १ ० १ | - अंतिम उत्तर बरोबर आहे की नाही यापासून स्वतंत्रपणे तर्काची स्पष्टता, कार्यक्षमता आणि सुसंगती मोजते. टीप: काही Gemini मॉडेल्समध्ये फक्त अंशतः reasoning मजकूर उपलब्ध असतो, त्यामुळे reasoning स्कोअर कमी दिसू शकतो. क्रमांक: #12/17 ३१% OpenAI: gpt-oss-120b 10.00 Z.ai: GLM 4.7 Flash 9.87 Anthropic: Claude Sonnet 4.6 9.83 Anthropic: Claude Opus 4.6 9.83 Z.ai: GLM 5 9.80 Google: Gemini 3 Flash Preview 9.17 Qwen: Qwen3 Coder Next 4.00 4.00 10.00 | $0.00357 एकूण खर्च क्रमांक: #12/27 ५८% StepFun: Step 3.5 Flash $0.00000 Xiaomi: MiMo-V2-Flash $0.00029 Xiaomi: MiMo-V2-Flash $0.00029 Z.ai: GLM 4.7 Flash $0.00050 OpenAI: gpt-oss-120b $0.00052 Google: Gemini 3 Flash Preview $0.00357 Anthropic: Claude Opus 4.6 $0.07755 $0.00000 $0.07755 |
| Domain specific | 2/3 | 7.00 सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण. क्रमांक: #3/27 ९२% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 7.00 Google: Gemini 3 Flash Preview 7.00 Anthropic: Claude Sonnet 4.6 7.00 Z.ai: GLM 4.7 Flash 7.00 Anthropic: Claude Sonnet 4.6 1.00 1.00 10.00 | 10.00 सुसंगतता गुण रीपीट्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी). क्रमांक: #1/27 १००% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Google: Gemini 3 Flash Preview 10.00 Anthropic: Claude Sonnet 4.6 10.00 Z.ai: GLM 5 4.41 4.41 10.00 | 66.7% प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रीपीटमधील एकूण प्रयत्न. क्रमांक: #3/27 ९२% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 66.7% Google: Gemini 3 Flash Preview 66.7% Anthropic: Claude Sonnet 4.6 66.7% Z.ai: GLM 4.7 Flash 66.7% Z.ai: GLM 5 0.0% 0.0% 100.0% | 0 अस्थिर चाचण्यांत रीपीट्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल). क्रमांक: #1/27 १००% Google: Gemini 3 Flash Preview ० Google: Gemini 3.1 Pro Preview ० Google: Gemini 3 Pro Preview ० Google: Gemini 3 Flash Preview ० Anthropic: Claude Sonnet 4.6 ० Z.ai: GLM 5 २ ० २ | - अंतिम उत्तर बरोबर आहे की नाही यापासून स्वतंत्रपणे तर्काची स्पष्टता, कार्यक्षमता आणि सुसंगती मोजते. टीप: काही Gemini मॉडेल्समध्ये फक्त अंशतः reasoning मजकूर उपलब्ध असतो, त्यामुळे reasoning स्कोअर कमी दिसू शकतो. क्रमांक: #12/17 ३१% Xiaomi: MiMo-V2-Flash 8.72 OpenAI: gpt-oss-120b 8.53 StepFun: Step 3.5 Flash 8.44 Z.ai: GLM 5 8.43 Z.ai: GLM 4.7 Flash 8.21 Google: Gemini 3 Flash Preview 5.56 Google: Gemini 3 Pro Preview 2.44 2.44 8.72 | $0.00038 एकूण खर्च क्रमांक: #10/27 ६५% StepFun: Step 3.5 Flash $0.00000 Z.ai: GLM 4.7 Flash $0.00005 Xiaomi: MiMo-V2-Flash $0.00008 Qwen: Qwen3 Coder Next $0.00010 Qwen: Qwen3 Coder Next $0.00010 Google: Gemini 3 Flash Preview $0.00038 Anthropic: Claude Sonnet 4.6 $0.64205 $0.00000 $0.64205 |
| Instructions following | 1/2 | 5.50 सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण. क्रमांक: #17/27 ३८% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Anthropic: Claude Sonnet 4.6 10.00 OpenAI: gpt-oss-120b 10.00 Z.ai: GLM 5 10.00 Google: Gemini 3 Flash Preview 5.50 xAI: Grok 4.1 Fast 1.00 1.00 10.00 | 5.81 सुसंगतता गुण रीपीट्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी). क्रमांक: #25/27 ८% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 OpenAI: GPT-5.2 10.00 Anthropic: Claude Sonnet 4.6 10.00 Google: Gemini 3 Flash Preview 5.81 Xiaomi: MiMo-V2-Flash 5.80 5.80 10.00 | 66.7% प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रीपीटमधील एकूण प्रयत्न. क्रमांक: #15/27 ४६% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 100.0% Google: Gemini 3 Pro Preview 100.0% Qwen: Qwen3.5 Plus 2026-02-15 100.0% OpenAI: GPT-5.2 100.0% Google: Gemini 3 Flash Preview 66.7% xAI: Grok 4.1 Fast 0.0% 0.0% 100.0% | 1 अस्थिर चाचण्यांत रीपीट्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल). क्रमांक: #20/27 २७% Google: Gemini 3 Flash Preview ० Google: Gemini 3.1 Pro Preview ० Google: Gemini 3 Pro Preview ० Qwen: Qwen3.5 Plus 2026-02-15 ० OpenAI: GPT-5.2 ० Google: Gemini 3 Flash Preview १ ० १ | - अंतिम उत्तर बरोबर आहे की नाही यापासून स्वतंत्रपणे तर्काची स्पष्टता, कार्यक्षमता आणि सुसंगती मोजते. टीप: काही Gemini मॉडेल्समध्ये फक्त अंशतः reasoning मजकूर उपलब्ध असतो, त्यामुळे reasoning स्कोअर कमी दिसू शकतो. क्रमांक: #15/17 १३% Anthropic: Claude Sonnet 4.6 10.00 Z.ai: GLM 5 9.75 StepFun: Step 3.5 Flash 9.67 OpenAI: gpt-oss-120b 9.50 Anthropic: Claude Opus 4.6 9.50 Google: Gemini 3 Flash Preview 5.50 xAI: Grok 4.1 Fast 3.25 3.25 10.00 | $0.00054 एकूण खर्च क्रमांक: #13/27 ५४% StepFun: Step 3.5 Flash $0.00000 Z.ai: GLM 4.7 Flash $0.00006 Xiaomi: MiMo-V2-Flash $0.00008 Qwen: Qwen3 Coder Next $0.00013 Qwen: Qwen3 Coder Next $0.00014 Google: Gemini 3 Flash Preview $0.00054 Google: Gemini 3.1 Pro Preview $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | 2/3 | 7.00 सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण. क्रमांक: #8/27 ७३% Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 Anthropic: Claude Sonnet 4.6 10.00 Z.ai: GLM 5 10.00 Google: Gemini 3 Flash Preview 7.00 Z.ai: GLM 4.7 Flash 1.00 1.00 10.00 | 10.00 सुसंगतता गुण रीपीट्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी). क्रमांक: #1/27 १००% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 MiniMax: MiniMax M2.5 4.79 4.79 10.00 | 66.7% प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रीपीटमधील एकूण प्रयत्न. क्रमांक: #8/27 ७३% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 100.0% Google: Gemini 3 Pro Preview 100.0% Qwen: Qwen3.5 Plus 2026-02-15 100.0% Anthropic: Claude Sonnet 4.6 100.0% Google: Gemini 3 Flash Preview 66.7% OpenAI: GPT-4o-mini 0.0% 0.0% 100.0% | 0 अस्थिर चाचण्यांत रीपीट्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल). क्रमांक: #1/27 १००% Google: Gemini 3 Flash Preview ० Google: Gemini 3.1 Pro Preview ० Google: Gemini 3 Pro Preview ० Qwen: Qwen3.5 Plus 2026-02-15 ० OpenAI: GPT-5.2 ० OpenAI: GPT-5 Nano २ ० २ | - अंतिम उत्तर बरोबर आहे की नाही यापासून स्वतंत्रपणे तर्काची स्पष्टता, कार्यक्षमता आणि सुसंगती मोजते. टीप: काही Gemini मॉडेल्समध्ये फक्त अंशतः reasoning मजकूर उपलब्ध असतो, त्यामुळे reasoning स्कोअर कमी दिसू शकतो. क्रमांक: #16/17 ६% Z.ai: GLM 5 9.50 Anthropic: Claude Sonnet 4.6 9.44 Anthropic: Claude Opus 4.6 9.44 MoonshotAI: Kimi K2.5 9.26 StepFun: Step 3.5 Flash 9.22 Google: Gemini 3 Flash Preview 6.50 Qwen: Qwen3 Coder Next 4.33 4.33 9.50 | $0.00066 एकूण खर्च क्रमांक: #8/27 ७३% StepFun: Step 3.5 Flash $0.00000 Z.ai: GLM 4.7 Flash $0.00008 OpenAI: GPT-4o-mini $0.00028 xAI: Grok 4.1 Fast $0.00053 Qwen: Qwen3 Coder Next $0.00058 Google: Gemini 3 Flash Preview $0.00066 Qwen: Qwen3.5 Plus 2026-02-15 $0.05508 $0.00000 $0.05508 |