Nvidia Luncurkan Cosmos 3: AI Bisa Lihat, Dengar, dan Bertindak Sekaligus!

Nvidia Luncurkan Cosmos 3: AI Bisa Lihat, Dengar, dan Bertindak Sekaligus!
Sumber :
  • Nvidia

Arsitektur Omnimodel: Satu Model untuk Semua Modalitas

img_title MSI RTX 5090 LIGHTNING Z Sabet Emas di Computex 2026

Salah satu terobosan utama Cosmos 3 adalah arsitektur omnimodel satu model tunggal yang secara native memproses:

  • Teks (instruksi, deskripsi)
  • Gambar (input visual statis)
  • Video (alur gerak temporal)
  • Suara ambient (konteks akustik lingkungan)
  • Aksi (output motorik atau keputusan kontrol)
img_title Kynooe Rilis Lengan Robot AI Modular Canggih di Kickstarter

Berbeda dengan sistem sebelumnya yang menggabungkan beberapa model terpisah (misalnya, CLIP untuk teks-gambar + Diffusion untuk video + policy network untuk aksi), Cosmos 3 menyatukan semuanya dalam satu jaringan neural berbasis mixture-of-transformers.

Keuntungan utamanya:

img_title BEYOND Expo 2026: Masa Depan AI Bukan Lagi Sekadar Software
  • Latensi lebih rendah: tidak ada transfer antar-model
  • Konsistensi konteks: semua modalitas diproses dalam ruang representasi yang sama
  • Generalisasi lebih baik: model belajar hubungan lintas-modalitas secara alami

Contoh praktis: Jika Anda berkata, “Ambil botol itu dan letakkan di meja tanpa membuat suara,” Cosmos 3 akan:

  • Mengenali objek (“botol”) dari video
  • Memahami instruksi dari teks
  • Memprediksi suara benturan dari material botol dan permukaan
  • Merancang gerakan halus untuk meminimalkan kebisingan

semua dalam satu siklus inferensi.

Dua Versi Tersedia: Nano untuk Edge, Super untuk Pusat Data

Nvidia merilis dua varian Cosmos 3 di Hugging Face:

1. Cosmos 3 Nano

  • Dirancang untuk deployment di edge (robot, drone, kendaraan)
  • Ringan, hemat daya, latensi ultra-rendah
  • Ideal untuk aplikasi real-time dengan sumber daya terbatas

2. Cosmos 3 Super

  • Model skala penuh untuk pelatihan dan simulasi high-fidelity
  • Digunakan di pusat data untuk menghasilkan data sintetis berkualitas tinggi
  • Mendukung simulasi kompleks seperti interaksi manusia-robot atau lalu lintas perkotaan

Keduanya dilengkapi skrip pelatihan, alat deployment, dan dataset asli semuanya open-source di GitHub. Ini langkah luar biasa langka untuk model AI mutakhir, yang biasanya dirahasiakan oleh perusahaan besar.

Open Source Total: Nvidia Taruhan pada Transparansi dan Reproduktibilitas

Berbeda dengan pendekatan tertutup banyak raksasa AI, Nvidia melepaskan semua komponen inti Cosmos 3:

  • Bobot model (model weights)
  • Skrip pelatihan (training scripts)
  • Dataset pelatihan
  • Alat deployment dan evaluasi

Tujuannya jelas: memungkinkan komunitas global memverifikasi klaim performa, mereproduksi hasil, dan membangun ekosistem terbuka bukan hanya mengandalkan angka benchmark dalam siaran pers.

Ini juga sejalan dengan filosofi Cosmos Coalition, yang mendorong kolaborasi alih-alih fragmentasi. Dengan Agile Robots (robotika), Runway (generasi video), dan Black Forest Labs (model multimodal) sebagai mitra inti, aliansi ini ingin menciptakan standar terbuka untuk AI dunia nyata.

Halaman Selanjutnya
img_title