Pernahkah Anda membayangkan sebuah teknologi yang bisa menemukan celah keamanan dalam kode program sebelum hacker memanfaatkannya? Itulah yang kini mulai dilakukan oleh kecerdasan buatan (AI) terbaru. Penelitian terbaru dari UC Berkeley menunjukkan, model AI mutakhir tidak hanya mahir menulis kode—tapi juga semakin canggih dalam mendeteksi kerentanan software.
Tim peneliti yang dipimpin Profesor Dawn Song menguji kemampuan beberapa model AI frontier—termasuk dari OpenAI, Google, dan Anthropic—serta solusi open source seperti Qwen2.5 dari Alibaba. Mereka menggunakan benchmark baru bernama CyberGym untuk menganalisis 188 basis kode open source. Hasilnya? AI berhasil mengidentifikasi 17 bug, 15 di antaranya adalah kerentanan “zero-day” yang sebelumnya tidak diketahui.
“Banyak dari kerentanan ini bersifat kritis,” ungkap Song. Yang lebih mengejutkan, tim menyatakan ini baru permulaan. “Kami bahkan tidak berusaha terlalu keras. Jika anggaran ditingkatkan dan agen dijalankan lebih lama, hasilnya bisa lebih baik lagi,” tambahnya.
Revolusi dalam Keamanan Siber
Kemampuan AI dalam menemukan bug tidak lagi sekadar teori. Startup seperti Xbow sudah membuktikannya dengan menempati posisi teratas di papan peringkat HackerOne untuk perburuan bug. Perusahaan ini baru saja mengantongi pendanaan segar $75 juta.
Menurut Song, kombinasi antara kemampuan pemrograman AI yang terus membaik dan peningkatan daya nalar model-model terbaru mulai mengubah lanskap keamanan siber. “Ini momen penting,” katanya. “AI benar-benar melampaui ekspektasi kami.”
Baca Juga:
Dua Sisi Mata Pisau
Di satu sisi, otomatisasi pencarian bug bisa menjadi berkah bagi perusahaan yang ingin mengamankan sistem mereka. Namun di sisi lain, teknologi yang sama bisa menjadi senjata ampuh di tangan peretas. “Kami tidak perlu berusaha keras untuk menemukan kerentanan ini,” kata Song. “Bayangkan apa yang bisa dilakukan oleh aktor jahat dengan sumber daya lebih besar.”
Tim UC Berkeley menggunakan beberapa agen khusus seperti OpenHands, Cybench, dan EnIGMA yang digerakkan oleh model AI mutakhir. Mereka memberi deskripsi kerentanan yang sudah diketahui kepada agen-agen ini, lalu meminta mereka mencari celah serupa dalam basis kode baru. Hasilnya, AI menghasilkan ratusan eksploit konsep—15 di antaranya adalah kerentanan zero-day yang benar-benar baru.
AI vs Manusia: Siapa yang Lebih Unggul?
Meski hasilnya mengesankan, AI masih jauh dari sempurna. Sistem ini gagal menemukan sebagian besar kerentanan dan benar-benar mentok menghadapi bug yang kompleks. Katie Moussouris dari Luta Security menyatakan, kombinasi terbaik (Claude dan OpenHands) hanya mampu menemukan sekitar 2% kerentanan. “Jangan ganti pemburu bug manusia Anda dulu,” candanya.
Brendan Dolan-Gavitt dari NYU dan Xbow memprediksi AI akan meningkatkan serangan menggunakan eksploit zero-day. “Saat ini serangan semacam itu jarang, karena hanya sedikit yang punya keahlian menemukan kerentanan baru dan membuat eksploitnya,” jelasnya. “AI akan mengubah itu.”
Di tengah perkembangan ini, Song dan peneliti lain telah mendirikan AI Frontiers CyberSecurity Observatory untuk memantau kemampuan berbagai model dan alat AI melalui beberapa benchmark. “Di antara semua domain risiko AI, keamanan siber akan menjadi salah satu yang pertama menjadi masalah besar,” tegas Song.
Lantas, bagaimana pendapat Anda? Apakah manfaat AI dalam pengujian keamanan software sepadan dengan risikonya? Bagikan pemikiran Anda di kolom komentar atau melalui email ke hello@wired.com.