Qwen3 dari Alibaba: Model AI Multibahasa yang Dukung Bahasa Daerah Indonesia

Qwen3 dari Alibaba: Model AI Multibahasa yang Dukung Bahasa Daerah Indonesia
Sumber :
  • Github Qwen

  • Qwen3-235B-A22B : Skor 95,6
  • OpenAI o1 : Skor 92,1
  • DeepSeek R1 : Skor 93,2
  • Gemini 2.5 Pro : Skor 96,4

ArenaHard menguji kemampuan penalaran sebuah LLM dalam menjawab pertanyaan kompleks dari berbagai topik. Semakin tinggi skornya, semakin baik kemampuan reasoningnya.

Matematika dan Sains (AIME'24 & AIME'25)

  • Qwen3-235B-A22B : Skor 85,7 / 81,5
  • OpenAI o1 : Skor 74,3 / 79,2
  • Grok 3 Beta : Skor 83,9 / 77,3

Coding (LiveCodeBench & CodeForces)

  • Qwen3-235B-A22B : Skor 70,7 / 2.056
  • OpenAI o1 : Skor 63,9 / 1.891
  • DeepSeek R1 : Skor 64,3 / 2.029
  • Performa Qwen3 dalam benchmark coding menunjukkan bahwa model ini sangat kompetitif, bahkan melampaui model proprietary seperti GPT-4.

Keunggulan Qwen3 di Bidang Multibahasa