PERBANDINGAN ALGORITMA SUPPORT VECTOR MACHINE DAN RANDOM FOREST UNTUK DETEKSI SMS SPAM BAHASA INDONESIA
Meningkatnya penggunaan SMS (Short Message Service) di Indonesia yang masih menjadi media komunikasi penting meskipun aplikasi pesan instan semakin populer. Tingginya penggunaan SMS juga memicu permasalahan serius berupa pesan spam yang dapat mengganggu kenyamanan pengguna, mengancam privasi, bahkan berpotensi menjadi sarana penipuan. Berdasarkan data dari Badan Perlindungan Konsumen Indonesia (BPKN) tahun 2020 serta laporan Truecaller 2021 menunjukkan bahwa Indonesia termasuk negara dengan tingkat SMS spam yang tinggi, sehingga dibutuhkan metode klasifikasi yang efektif untuk mendeteksi pesan spam, khususnya dalam bahasa Indonesia. Penelitian ini bertujuan mengimplementasikan algoritma Support Vector Machine (SVM) dan Random Forest serta membandingkan tingkat akurasi kedua metode tersebut dalam klasifikasi SMS spam. Tahapan penelitian meliputi preprocessing data (cleaning, case folding, normalisasi, tokenisasi, stopword removal, dan stemming), ekstraksi fitur menggunakan Term Frequency-Inverse Document Frequency (TF-IDF) agar teks dapat direpresentasikan dalam bentuk numerik, serta pemodelan menggunakan SVM dengan kernel linear dan optimasi parameter C (Cost), serta Random Forest dengan parameter n_estimator, criterion, min_samples_leaf, min_samples_split, dan random_state. Evaluasi kinerja dilakukan menggunakan confusion matrix untuk mengukur akurasi, presisi, dan recall. Hasil penelitian menunjukkan bahwa SVM mampu menangani data berdimensi tinggi dengan representasi sparse secara lebih baik, karena mempertimbangkan bobot keseluruhan kata secara simultan dalam membentuk pola klasifikasi. Sedangkan, Random Forest menggunakan mekanisme threshold yang tidak sepenuhnya memperhitungkan bobot kata secara menyeluruh, sehingga sebagian informasi dapat hilang. Berdasarkan pengujian, SVM menghasilkan akurasi 96%, sedangkan Random Forest memperoleh akurasi 92%. Perbedaan ini mengindikasikan bahwa SVM lebih efektif dalam mengklasifikasikan SMS spam berbahasa Indonesia.
Kata Kunci : SMS Spam, Klasifikasi Teks, Support Vector Machine, Random Forest, TF-IDF
URI
https://repo.itera.ac.id/depan/submission/SB2512030009
Keyword
SMS Spam Klasifikasi Teks Support Vector Machine Random Forest TF-IDF