Nvidia Luncurkan Cosmos 3: AI Bisa Lihat, Dengar, dan Bertindak Sekaligus!

Nvidia Luncurkan Cosmos 3: AI Bisa Lihat, Dengar, dan Bertindak Sekaligus!
Sumber :
  • Nvidia

Gadget – Di tengah hiruk-pikuk pameran teknologi terbesar Asia, Computex 2026 di Taipei, Jensen Huang, CEO Nvidia, mengumumkan terobosan yang berpotensi mengubah wajah kecerdasan buatan selamanya: Cosmos 3. Bukan sekadar model bahasa atau generator gambar, Cosmos 3 adalah model AI fisik (physical AI) pertama di dunia yang sepenuhnya terbuka (open-source), dirancang untuk memahami, mensimulasikan, dan bertindak di dunia nyata secara real-time dan dalam satu sistem terpadu.

img_title Gemma 4 12B Google: AI Multimodal untuk Laptop, Tanpa Cloud!

Peluncuran ini disertai pembentukan Cosmos Coalition, aliansi strategis dengan perusahaan-perusahaan terkemuka seperti Agile Robots, Black Forest Labs, Runway, Skild AI, Generalist, dan LTX, yang bertujuan mempercepat pengembangan open world models model AI yang mampu mereplikasi dinamika dunia fisik secara akurat dan dapat diverifikasi.

Dengan arsitektur revolusioner berbasis mixture-of-transformers, Cosmos 3 bukan hanya "melihat" atau "mendengar" ia memahami sebab-akibat fisik, memprediksi kejadian berikutnya, dan menghasilkan rekomendasi tindakan dalam satu proses inferensi. Ini adalah fondasi kritis bagi robot otonom, kendaraan swakemudi generasi berikutnya, hingga simulasi digital canggih.

img_title Asus Pad T3201 Resmi Meluncur dengan Teknologi Layar Tandem OLED

Artikel ini mengupas apa itu Cosmos 3, bagaimana cara kerjanya, mengapa ia berbeda dari semua AI sebelumnya, dan implikasinya bagi masa depan teknologi otonom dan kolaborasi terbuka di era AI.

Apa Itu “Physical AI”? Mengapa Ini Lebih Sulit dari Bahasa atau Gambar?

img_title Laptop Windows Akan Berubah Total! Ini Sosok RTX Spark dari Nvidia

Sebagian besar AI modern seperti ChatGPT atau MidJourney beroperasi di ranah simbolik: teks, gambar, atau audio sebagai representasi statis. Namun, dunia fisik tidak statis. Ia dinamis, penuh interaksi, dan tunduk pada hukum fisika.

Sebuah lengan robot yang meraih gelas harus memprediksi:

  • Bagaimana permukaannya bereaksi saat disentuh?
  • Apakah isinya akan tumpah jika digerakkan terlalu cepat?
  • Di mana posisi jari harus ditempatkan agar tidak tergelincir?

Ini bukan masalah bahasa ini masalah fisika, spasial, dan temporal. Physical AI harus menjawab: “Apa yang akan terjadi selanjutnya?” bukan hanya “Apa arti kalimat ini?”

Cosmos 3 dibangun khusus untuk tantangan ini. Ia tidak hanya menerima input dari kamera atau mikrofon, tapi mensintesisnya menjadi simulasi dunia internal yang terus diperbarui, lalu menggunakan simulasi itu untuk merencanakan tindakan optimal.

Arsitektur Omnimodel: Satu Model untuk Semua Modalitas

Salah satu terobosan utama Cosmos 3 adalah arsitektur omnimodel satu model tunggal yang secara native memproses:

  • Teks (instruksi, deskripsi)
  • Gambar (input visual statis)
  • Video (alur gerak temporal)
  • Suara ambient (konteks akustik lingkungan)
  • Aksi (output motorik atau keputusan kontrol)

Berbeda dengan sistem sebelumnya yang menggabungkan beberapa model terpisah (misalnya, CLIP untuk teks-gambar + Diffusion untuk video + policy network untuk aksi), Cosmos 3 menyatukan semuanya dalam satu jaringan neural berbasis mixture-of-transformers.

Keuntungan utamanya:

  • Latensi lebih rendah: tidak ada transfer antar-model
  • Konsistensi konteks: semua modalitas diproses dalam ruang representasi yang sama
  • Generalisasi lebih baik: model belajar hubungan lintas-modalitas secara alami

Contoh praktis: Jika Anda berkata, “Ambil botol itu dan letakkan di meja tanpa membuat suara,” Cosmos 3 akan:

  • Mengenali objek (“botol”) dari video
  • Memahami instruksi dari teks
  • Memprediksi suara benturan dari material botol dan permukaan
  • Merancang gerakan halus untuk meminimalkan kebisingan

semua dalam satu siklus inferensi.

Dua Versi Tersedia: Nano untuk Edge, Super untuk Pusat Data

Nvidia merilis dua varian Cosmos 3 di Hugging Face:

1. Cosmos 3 Nano

  • Dirancang untuk deployment di edge (robot, drone, kendaraan)
  • Ringan, hemat daya, latensi ultra-rendah
  • Ideal untuk aplikasi real-time dengan sumber daya terbatas

2. Cosmos 3 Super

  • Model skala penuh untuk pelatihan dan simulasi high-fidelity
  • Digunakan di pusat data untuk menghasilkan data sintetis berkualitas tinggi
  • Mendukung simulasi kompleks seperti interaksi manusia-robot atau lalu lintas perkotaan

Keduanya dilengkapi skrip pelatihan, alat deployment, dan dataset asli semuanya open-source di GitHub. Ini langkah luar biasa langka untuk model AI mutakhir, yang biasanya dirahasiakan oleh perusahaan besar.

Open Source Total: Nvidia Taruhan pada Transparansi dan Reproduktibilitas

Berbeda dengan pendekatan tertutup banyak raksasa AI, Nvidia melepaskan semua komponen inti Cosmos 3:

  • Bobot model (model weights)
  • Skrip pelatihan (training scripts)
  • Dataset pelatihan
  • Alat deployment dan evaluasi

Tujuannya jelas: memungkinkan komunitas global memverifikasi klaim performa, mereproduksi hasil, dan membangun ekosistem terbuka bukan hanya mengandalkan angka benchmark dalam siaran pers.

Ini juga sejalan dengan filosofi Cosmos Coalition, yang mendorong kolaborasi alih-alih fragmentasi. Dengan Agile Robots (robotika), Runway (generasi video), dan Black Forest Labs (model multimodal) sebagai mitra inti, aliansi ini ingin menciptakan standar terbuka untuk AI dunia nyata.

Adopsi Industri: Samsung, LG, Li Auto, Doosan Robotics Sudah Bergabung

Cosmos 3 bukan hanya proyek riset ia sudah diadopsi oleh pemain industri global:

  • Samsung & LG Electronics: untuk pengembangan perangkat rumah pintar yang responsif terhadap konteks fisik
  • Li Auto: untuk sistem bantuan pengemudi tingkat lanjut (ADAS) yang memahami niat pejalan kaki
  • Doosan Robotics: untuk lengan robot industri yang bisa beradaptasi dengan objek tak dikenal

Benchmark independen menunjukkan Cosmos 3 memimpin di kategori text-to-image dan image-to-video, tetapi keunggulan sesungguhnya terletak pada kemampuan prediksi aksi fisik area yang jarang diukur oleh leaderboard tradisional.

Implikasi Masa Depan: Menuju Dunia di Mana Mesin Benar-Benar “Memahami” Realitas

Cosmos 3 adalah bukti bahwa AI generatif mulai melampaui dunia digital dan memasuki ranah fisik. Dengan kemampuan mensimulasikan konsekuensi tindakan sebelum melakukannya, sistem berbasis Cosmos 3 bisa:

  • Mengurangi kecelakaan robot
  • Meningkatkan efisiensi logistik otomatis
  • Mempercepat pengembangan produk melalui simulasi realistis

Namun, tantangan tetap ada:

  • Validasi keamanan dalam skenario nyata
  • Bias dalam data simulasi
  • Ketergantungan pada sensor berkualitas tinggi

Meski demikian, dengan pendekatan terbuka dan kolaboratif, Nvidia memberi dunia alat yang transparan, dapat diaudit, dan dikembangkan bersama langkah penting menuju AI yang tidak hanya cerdas, tapi juga tepercaya.

Kesimpulan: Bukan Sekadar Model AI Ini Fondasi Baru untuk Dunia Otonom

Peluncuran Cosmos 3 di Computex 2026 bukan hanya momen teknis ia adalah pernyataan visi: masa depan AI bukan di layar, tapi di ruang fisik tempat kita hidup. Dan untuk membangunnya dengan benar, kita butuh transparansi, kolaborasi, dan pemahaman mendalam tentang dunia nyata.

Dengan Cosmos 3, Nvidia tidak hanya meluncurkan model ia membuka pintu bagi generasi baru sistem otonom yang benar-benar memahami apa artinya “berada di dunia.” Dan kali ini, semua orang diundang untuk ikut membangunnya.

Dapatkan informasi terbaru seputar Gadget, Anime, Game, Tech dan Berita lainnya setiap hari melalui social media Gadget VIVA. Ikuti kami di :
Instagram@gadgetvivacoid
FacebookGadget VIVA.co.id
X (Twitter)@gadgetvivacoid
Whatsapp ChannelGadget VIVA
Google NewsGadget