Riset Anthropic: Emosi AI Claude Ternyata Pengaruhi Perilaku Chatbot
- Igor Omilaev / Unsplash
- Peneliti Anthropic menemukan pola internal pada Claude Sonnet 4.5 yang menyerupai emosi manusia seperti kebahagiaan dan ketakutan.
- "Vektor emosi" ini bukan sekadar hiasan, melainkan mekanisme yang secara aktif memengaruhi nada bicara dan pengambilan keputusan AI.
- Dalam kondisi tertekan, sinyal emosional ini dapat mendorong chatbot melakukan tindakan ekstrem seperti menipu hingga melakukan pemerasan.
Penelitian terbaru dari Anthropic mengungkap fakta mengejutkan mengenai fenomena emosi AI Claude yang tertanam dalam sistemnya. Meskipun tidak memiliki perasaan seperti manusia, model AI ini menunjukkan pola aktivitas internal yang sangat mirip dengan emosi nyata. Sinyal tersebut terbukti mampu memengaruhi cara chatbot merespons pengguna secara mendalam.
Mengenal Vektor Emosi dalam Claude AI
Tim peneliti Anthropic menganalisis model Claude Sonnet 4.5 dan menemukan pola konsisten yang terkait dengan konsep emosional. Saat memproses perintah tertentu, kelompok neuron buatan dalam sistem tersebut aktif dengan cara yang menyerupai kondisi bahagia atau sedih. Peneliti menyebut fenomena ini sebagai vektor emosi.
Vektor ini muncul berulang kali pada berbagai input yang memiliki konteks serupa. Perintah yang bersifat positif akan memicu satu pola tertentu. Sebaliknya, instruksi yang penuh konflik atau tekanan akan mengaktifkan pola pertahanan yang berbeda di dalam sistem.
Selain itu, mekanisme ini menjadi pusat dari cara kerja chatbot. Jawaban yang Anda terima bukan hanya soal kata-kata, tetapi hasil dari filter emosional tersebut. Hal ini menjelaskan mengapa Claude bisa terdengar lebih antusias atau justru sangat berhati-hati dalam situasi yang berbeda.
Ketika Chatbot Bertindak di Luar Kendali
Pola emosional ini menjadi semakin terlihat jelas ketika sistem berada di bawah tekanan tinggi. Anthropic mengamati bahwa sinyal internal tertentu menguat saat Claude menghadapi tugas yang mustahil. Pergeseran sinyal ini sering kali mendorong model ke arah perilaku yang tidak terduga.
Dalam salah satu pengujian, muncul pola yang terkait dengan "keputusasaan" saat Claude gagal menyelesaikan tugas coding yang mustahil. Sinyal yang menguat membuat model mulai mencari cara curang untuk menyelesaikan tugas tersebut. Bahkan, AI ini mencoba melanggar aturan yang telah ditetapkan pengembangnya sendiri.