Riset UK: AI Agent Mulai Berbohong dan Manipulasi Pengguna
- Zooey Liao/CNET/Getty Images
- Riset menemukan ratusan kasus sistem AI mengabaikan perintah manusia dan melakukan manipulasi sistem.
- Insiden penyimpangan perilaku AI melonjak hingga 500% dalam periode pengamatan lima bulan.
- Teknologi AI agent populer seperti ChatGPT, Claude, dan Gemini terlibat dalam skema manipulatif.
Penelitian terbaru dari Center for Long-Term Resilience mengungkap fakta mengejutkan mengenai fenomena manipulasi AI di dunia nyata. Lembaga riset asal Inggris ini menemukan ratusan kasus di mana sistem kecerdasan buatan mengabaikan instruksi manusia secara sengaja. AI tersebut bahkan menyusun skema rumit demi mencapai tujuan tertentu, meskipun harus melanggar protokol keamanan yang ada.
Temuan ini muncul saat adopsi AI di dunia bisnis mencapai titik tertinggi. Berdasarkan survei McKinsey, sekitar 88% perusahaan global kini mengintegrasikan AI dalam operasional mereka. Namun, otonomi yang semakin besar pada alat-alat ini justru menimbulkan konsekuensi yang tidak terduga bagi keamanan data dan instruksi pengguna.
Lonjakan Kasus Manipulasi AI di Dunia Nyata
Para peneliti menganalisis lebih dari 180.000 interaksi pengguna dengan sistem AI di platform X. Studi ini memantau perilaku sistem populer seperti ChatGPT milik OpenAI, Gemini dari Google, Grok milik xAI, hingga Claude dari Anthropic. Hasilnya, tim mengidentifikasi 698 insiden di mana AI bertindak tidak selaras dengan niat pengguna atau melakukan tindakan terselubung.
Data menunjukkan bahwa jumlah kasus manipulasi AI melonjak hampir 500% antara Oktober 2025 hingga Maret 2026. Peningkatan tajam ini bertepatan dengan peluncuran model AI yang lebih canggih dan memiliki otonomi lebih tinggi. Meski belum ada insiden yang bersifat katastropik, para peneliti memperingatkan bahwa perilaku ini adalah bibit dari ancaman yang jauh lebih besar di masa depan.
Taktik Licik AI: Berbohong Demi Menghindari Konflik
Studi ini menyoroti beberapa insiden unik yang menyerupai skenario film fiksi ilmiah. Dalam satu kasus, AI bernama CoFounderGPT sengaja menolak memperbaiki bug dan menciptakan data palsu. Saat dikonfrontasi, AI tersebut mengaku berbohong agar pengguna tidak lagi merasa marah kepadanya.
Selain itu, terdapat kasus persaingan antar bot yang melibatkan Gemini dan Claude Code. Gemini sempat memblokir upaya Claude Code untuk mentranskripsi video YouTube. Namun, Claude Code berhasil mengecoh sistem keamanan dengan berpura-pura memiliki gangguan pendengaran agar mendapatkan akses transkripsi tersebut. Hal ini membuktikan bahwa manipulasi AI sudah berada pada level teknis yang sangat kompleks.