Analisis Support Vector Machine (SVM) dengan Synthetic Minority Oversampling Technique (SMOTE) dalam Mengatasi Data Tidak Seimbang untuk Klasifikasi Ulasan Layanan Kesehatan
Penelitian ini mengeksplorasi penerapan Support Vector Machine (SVM) One vs Rest dan Synthetic Minority Oversampling Technique (SMOTE) untuk menangani ketidakseimbangan data dalam klasifikasi ulasan layanan kesehatan menggunakan Spark MLlib. CountVectorizer digunakan untuk mengubah kata dalam ulasan menjadi representasi numerik berbasis frekuensi (TF), yang kemudian digabungkan dengan Inverse Document Frequency (IDF) untuk menghasilkan vektor TF-IDF. Studi ini dilakukan pada beberapa rumah sakit di Bandar Lampung, dengan fokus pada analisis sentimen positif, negatif, dan netral yang dilabeli menggunakan Lexicon VADER. Hasil analisis menunjukkan bahwa ulasan positif mendominasi, dengan aspek "layanan", "bidan", dan "ruang" menerima apresiasi tertinggi, sementara ulasan negatif lebih sering mengkritik aspek "dokter" dan "perawatan", dan ulasan netral cenderung bersifat deskriptif tanpa penilaian signifikan. Penelitian ini membandingkan performa model SVM pada pembagian data 70% Latih 30% Uji dan 80% Latih 20% Uji, baik tanpa maupun dengan SMOTE. Tanpa SMOTE, model menunjukkan bias terhadap kelas mayoritas dengan nilai akurasi 91.53%, dan Macro Average F1 Score 44.33%. Setelah penerapan SMOTE, Macro Average F1 Score meningkat signifikan menjadi 67.07%, dengan akurasi mencapai 92.74%, dan peningkatan yang substansial pada precision serta recall untuk kelas netral, menghasilkan F1-Score sebesar 66.66%. Meskipun waktu pelatihan meningkat karena penambahan data sintetis, waktu prediksi tetap stabil atau bahkan lebih cepat. Kesimpulannya, SMOTE terbukti efektif dalam meningkatkan akurasi dan efisiensi model, serta kemampuan dalam mengenali kelas minoritas.
URI
https://repo.itera.ac.id/depan/submission/SB2409190055
Keyword
Support Vector Machine Data Tidak Seimbang Synthetic Minority Oversampling Technique Ulasan Layanan Kesehatan Klasifikasi