OpenAI Rilis GPT-5.2 - Hemat 10 Jam/Minggu, Tapi Hati-Hati dengan Ini!
- cometapi
Catatan OpenAI: “Selalu verifikasi output untuk keputusan kritis.” Meski lebih akurat, AI tetap bukan pengganti penilaian manusia sepenuhnya.
GPT-5.2 Thinking Kalahkan Ahli Manusia Ini Buktinya
Prestasi paling mengejutkan GPT-5.2 terungkap dalam GDPval, benchmark komprehensif yang menguji kinerja AI di 44 bidang pekerjaan profesional mulai dari hukum, akuntansi, rekayasa hingga bioteknologi.
Hasilnya mengejutkan:
- GPT-5.2 Thinking menyamai atau mengungguli ahli manusia di 70,9% skenario
- 11x lebih cepat dalam menghasilkan output dibanding manusia
- Biaya kurang dari 1% dari honorarium profesional manusia
Ini berarti, untuk pertama kalinya, AI bukan hanya alat bantu tapi pesaing nyata di dunia profesional.
Perusahaan seperti Shopify, Notion, dan Zoom melaporkan peningkatan signifikan dalam otomatisasi tugas kompleks. Sementara dalam benchmark pengkodean SWE-Bench Pro, GPT-5.2 mencatat rekor 55,6% akurasi melampaui semua model sebelumnya.
Penurunan 30% Halusinasi: AI Kini Jauh Lebih Andal
Salah satu kelemahan utama AI generatif adalah “halusinasi” mengarang fakta yang terdengar meyakinkan. GPT-5.2 Thinking berhasil mengurangi tingkat kesalahan ini sebesar 30% dibanding GPT-5.1.
Dampaknya besar:
- Riset akademis lebih akurat
- Dokumen hukum dan keuangan minim risiko kesalahan faktual
- Keputusan bisnis berbasis data yang lebih tepercaya
Ini menjadikan GPT-5.2 layak digunakan dalam konteks high-stakes, asalkan tetap diverifikasi.
Visi, Alat, dan Konteks Panjang: AI yang “Melihat” dan “Bertindak”
GPT-5.2 bukan hanya lebih pintar ia juga lebih sadar akan dunia nyata.
1. Pemahaman Visual yang Jauh Lebih Baik
- Kesalahan membaca grafik dan antarmuka perangkat lunak turun 50%
- Mampu memahami posisi elemen dalam gambar, seperti dashboard analitik atau diagram teknis
- Ideal untuk insinyur, desainer, atau analis yang sering bekerja dengan screenshot atau dokumen visual
2. Penalaran Konteks Panjang yang Nyaris Sempurna
Dalam tes MRCRv2, GPT-5.2 mencapai akurasi mendekati sempurna saat melacak 4 informasi berbeda dalam dokumen sepanjang 256.000 token (setara ~200.000 kata). Ini menjadikannya alat ideal untuk:
- Analisis kontrak hukum
- Ringkasan laporan tahunan perusahaan
- Peninjauan dokumen medis atau teknis panjang
3. Penggunaan Alat dengan Akurasi 98,7%
GPT-5.2 kini bisa mengkoordinasikan alat eksternal (API, database, kalender) dalam alur kerja multi-tahap. Contoh nyata:
"Rebooking pelanggan yang ketinggalan pesawat" dari cek jadwal, cari kursi kosong, perbarui tiket, hingga kirim notifikasi semuanya dilakukan dalam satu kali permintaan, dengan keberhasilan 98,7%.
Dulu, model lama hanya menghasilkan langkah parsial.