Qwen3 dari Alibaba: Model AI Multibahasa yang Dukung Bahasa Daerah Indonesia
Kamis, 1 Mei 2025 - 07:31 WIB
Sumber :
- Github Qwen
- Qwen3-235B-A22B : Skor 95,6
- OpenAI o1 : Skor 92,1
- DeepSeek R1 : Skor 93,2
- Gemini 2.5 Pro : Skor 96,4
ArenaHard menguji kemampuan penalaran sebuah LLM dalam menjawab pertanyaan kompleks dari berbagai topik. Semakin tinggi skornya, semakin baik kemampuan reasoningnya.
Matematika dan Sains (AIME'24 & AIME'25)
- Qwen3-235B-A22B : Skor 85,7 / 81,5
- OpenAI o1 : Skor 74,3 / 79,2
- Grok 3 Beta : Skor 83,9 / 77,3
Coding (LiveCodeBench & CodeForces)
- Qwen3-235B-A22B : Skor 70,7 / 2.056
- OpenAI o1 : Skor 63,9 / 1.891
- DeepSeek R1 : Skor 64,3 / 2.029
- Performa Qwen3 dalam benchmark coding menunjukkan bahwa model ini sangat kompetitif, bahkan melampaui model proprietary seperti GPT-4.