Telset.id – Bayangkan Anda sedang berdiskusi dengan ChatGPT tentang rekomendasi kafe terbaik di Jakarta. Alih-alih hanya mendengar suara balasan, kini Anda bisa melihat transkrip percakapan, peta lokasi, hingga foto menu secara real-time—semuanya dalam satu jendela chat yang sama. Inilah revolusi terbaru yang dibawa OpenAI untuk pengalaman berinteraksi dengan AI.
OpenAI secara resmi mengumumkan perubahan fundamental pada cara kerja ChatGPT Voice. Fitur yang sebelumnya mengharuskan pengguna beralih ke antarmuka terpisah kini terintegrasi penuh dalam chat biasa. Cukup ketuk ikon “waveform” di sebelah kolom teks, dan percakapan suara langsung berlangsung dalam konteks pembicaraan yang sedang berjalan. Sebuah langkah natural yang membuat dialog dengan AI terasa lebih manusiawi dan kontekstual.
Dalam demo yang dibagikan OpenAI, terlihat jelas bagaimana ChatGPT tidak hanya merespons dengan suara, tetapi juga menampilkan visual pendukung. Saat membahas bakery terkenal Tartine, AI menampilkan peta lokasi dan gambar pastry yang dijual. Kombinasi respons multimodal ini menghadirkan pengalaman belajar dan berdiskusi yang jauh lebih kaya dibanding sekadar obrolan suara biasa.
Dari Mode Terpisah Menuju Integrasi Penuh
Perubahan ini menandai evolusi signifikan dalam filosofi desain OpenAI. ChatGPT Voice yang awalnya hadir sebagai pengalaman terisolasi—dengan antarmuka orb yang khas—kini menyatu dengan alur chat utama. Bagi yang sudah familiar dengan cara menggunakan fitur suara di ChatGPT mobile, transisi ini akan terasa sangat intuitif.
Yang menarik, OpenAI tidak serta-merta menghapus opsi lama. Pengguna yang lebih nyaman dengan antarmuka terpisah masih bisa mengaktifkan “Separate mode” melalui pengaturan Voice Mode di Settings. Fleksibilitas ini menunjukkan perhatian OpenAI terhadap preferensi individual pengguna, mirip dengan pendekatan mereka saat membuka fitur Projects untuk pengguna gratis.

Integrasi ini bukan sekadar perubahan kosmetik. Dengan menghadirkan transkrip real-time, pengguna bisa dengan mudah mereview poin-poin penting dari percakapan. Fitur ini sangat berguna untuk diskusi panjang tentang topik kompleks, di mana detail tertentu perlu ditinjau ulang tanpa harus memutar seluruh rekaman suara.
Baca Juga:
Multimodalitas: Masa Depan Interaksi Manusia-AI
Langkah OpenAI ini konsisten dengan visi multimodal yang mereka usung. Sejak meluncurkan ChatGPT Voice gratis, mereka terus menyempurnakan cara manusia berinteraksi dengan AI melalui berbagai modalitas. Kombinasi suara, teks, dan visual dalam satu platform menciptakan ekosistem komunikasi yang lebih holistik.
Persaingan di bidang ini semakin ketat. Google, misalnya, telah bereksperimen dengan metode serupa untuk membuat Gemini Live lebih ekspresif, termasuk kemampuan AI menyoroti bagian spesifik dari video live dengan overlay. Meskipun fitur OpenAI belum se-reaktif itu, integrasi voice dan visual ini membuka peluang baru untuk percakapan yang lebih informatif.
Perkembangan teknologi voice AI memang sedang mengalami percepatan luar biasa. Baru-baru ini, Meta mengakuisisi Play AI untuk memperkuat teknologi voice cloning, menunjukkan betapa seriusnya para raksasa teknologi berinvestasi di bidang ini. OpenAI dengan ChatGPT Voice-nya jelas tidak ingin ketinggalan.
Tutorial Praktis: Memaksimalkan ChatGPT Voice Terintegrasi
Bagi Anda yang ingin segera mencoba fitur baru ini, prosesnya sangat sederhana. Pastikan aplikasi ChatGPT di perangkat mobile sudah diperbarui ke versi terbaru. Untuk pengguna web, tidak diperlukan instalasi tambahan—fitur akan tersedia secara otomatis.
Berikut langkah-langkah praktisnya:
- Buka chat biasa dengan ChatGPT di aplikasi mobile atau web
- Ketuk atau klik ikon waveform (gelombang suara) di samping kolom input teks
- Mulai berbicara—transkrip akan muncul real-time di chat
- Respons ChatGPT akan datang dalam bentuk suara, disertai teks dan visual pendukung
- Untuk beralih kembali ke mode teks, cukup ketuk ikon yang sama
Keunggulan utama fitur ini adalah kemampuannya mempertahankan konteks. Anda bisa memulai percakapan suara di tengah diskusi teks tentang resep masakan, lalu beralih kembali ke mode teks tanpa kehilangan alur pembicaraan. Kelancaran ini yang membuat pengalaman terasa begitu natural.
Fitur ini sedang di-roll out ke semua pengguna di platform mobile dan web. Jika belum melihatnya di akun Anda, bersabarlah—OpenAI biasanya melakukan rollout bertahap. Sementara menunggu, tidak ada salahnya menjelajahi fitur obrolan grup yang sedang diuji coba untuk pengalaman kolaboratif yang lebih luas.
Revolusi interaksi manusia-komputer sedang berlangsung di depan mata kita. Dengan setiap pembaruan seperti ini, batas antara percakapan dengan manusia dan AI semakin kabur. Yang jelas, masa depan di mana kita bisa ngobrol santai dengan AI sambil mendapatkan informasi visual yang kaya—seperti bertanya pada teman yang serba tahu—sudah semakin dekat.

