Nvidia Luncurkan Cosmos 3: AI Bisa Lihat, Dengar, dan Bertindak Sekaligus!
- Nvidia
Gadget – Di tengah hiruk-pikuk pameran teknologi terbesar Asia, Computex 2026 di Taipei, Jensen Huang, CEO Nvidia, mengumumkan terobosan yang berpotensi mengubah wajah kecerdasan buatan selamanya: Cosmos 3. Bukan sekadar model bahasa atau generator gambar, Cosmos 3 adalah model AI fisik (physical AI) pertama di dunia yang sepenuhnya terbuka (open-source), dirancang untuk memahami, mensimulasikan, dan bertindak di dunia nyata secara real-time dan dalam satu sistem terpadu.
Peluncuran ini disertai pembentukan Cosmos Coalition, aliansi strategis dengan perusahaan-perusahaan terkemuka seperti Agile Robots, Black Forest Labs, Runway, Skild AI, Generalist, dan LTX, yang bertujuan mempercepat pengembangan open world models model AI yang mampu mereplikasi dinamika dunia fisik secara akurat dan dapat diverifikasi.
Dengan arsitektur revolusioner berbasis mixture-of-transformers, Cosmos 3 bukan hanya "melihat" atau "mendengar" ia memahami sebab-akibat fisik, memprediksi kejadian berikutnya, dan menghasilkan rekomendasi tindakan dalam satu proses inferensi. Ini adalah fondasi kritis bagi robot otonom, kendaraan swakemudi generasi berikutnya, hingga simulasi digital canggih.
Artikel ini mengupas apa itu Cosmos 3, bagaimana cara kerjanya, mengapa ia berbeda dari semua AI sebelumnya, dan implikasinya bagi masa depan teknologi otonom dan kolaborasi terbuka di era AI.
Apa Itu “Physical AI”? Mengapa Ini Lebih Sulit dari Bahasa atau Gambar?
Sebagian besar AI modern seperti ChatGPT atau MidJourney beroperasi di ranah simbolik: teks, gambar, atau audio sebagai representasi statis. Namun, dunia fisik tidak statis. Ia dinamis, penuh interaksi, dan tunduk pada hukum fisika.
Sebuah lengan robot yang meraih gelas harus memprediksi:
- Bagaimana permukaannya bereaksi saat disentuh?
- Apakah isinya akan tumpah jika digerakkan terlalu cepat?
- Di mana posisi jari harus ditempatkan agar tidak tergelincir?
Ini bukan masalah bahasa ini masalah fisika, spasial, dan temporal. Physical AI harus menjawab: “Apa yang akan terjadi selanjutnya?” bukan hanya “Apa arti kalimat ini?”
Cosmos 3 dibangun khusus untuk tantangan ini. Ia tidak hanya menerima input dari kamera atau mikrofon, tapi mensintesisnya menjadi simulasi dunia internal yang terus diperbarui, lalu menggunakan simulasi itu untuk merencanakan tindakan optimal.