Repository Institut teknologi Sumatera

Perbandingan Random Oversampling Dan Synthetic Minority Oversampling Techniques (SMOTE) Dalam Mengatasi Imbalanced Dataset

View/Open

Author
Juliawati, Hutagaol

Date Published
14 Jul 2023

Advisor
Winda, Yulita, S.Pd., M.Cs.
Meida Cahyo, Untoro, S.Kom., M.Kom.

Subject
Teknik Informatika

Publisher

ABSTRAK PERBANDINGAN RANDOM OVERSAMPLING DAN SYNTHETIC MINORITY OVERSAMPLING TECHNIQUES (SMOTE) DALAM MENGATASI IMBALANCED DATASET Juliawati Hutagaol Klasifikasi merupakan suatu metode dalam data mining yang mengelompokkan atau memetakan data ke dalam kelas atau kelompok tertentu berdasarkan ciri atau atribut yang dimiliki oleh data tersebut. Meskipun klasifikasi sangat berguna dalam berbagai bidang seperti pengenalan pola dan ilmu data, ada juga permasalahan yang dapat terjadi dalam proses klasifikasi, yaitu adanya Misclassification. Misclassification atau kesalahan klasifikasi terjadi ketika model klasifikasi salah memprediksi kelas atau label dari suatu data. Misclassification dapat dibagi menjadi 2 jenis, yaitu False positif dan False Negatif. Misclassification dapat disebabkan jika data yang digunakan untuk melatih model terdapat imbalanced pada dataset. Imbalanced dataset merupakan suatu kondisi ketika salah satu kelas dalam dataset mendominasi kelas yang lain atau bisa disebut tidak seimbangnya rasio data mayoritas dan data minoritas. Misclassification dapat ditekan dengan cara menyeimbangkan jumlah data pada tiap kategori menggunakan metode undersampling dan metode oversampling. Adapun metode yang digunakan untuk melakukan balancing dataset pada penelitian ini, yaitu dilakukan dengan menggunakan metode Random Oversampling dan dengan Synthetic Minority Oversampling Techniques (SMOTE). Tujuannya adalah untuk menangani imbalanced dataset menggunakan kedua metode dan untuk mengetahui performansi kinerja model dengan melihat nilai accuracy, precision, recall, dan f1-score pada kedua metode pada dataset yang digunakan. Dataset yang digunakan pada penelitian ini adalah dataset yang bersumber dari Kaggle yaitu dataset water quality, diabetes dataset dan dataset wine quality. Uji evaluasi model, yaitu dengan menggunakan confusion matrix dan algoritma random forest dengan melihat nilai accuracy, precision, recall dan f1-score dari metode Random Oversampling dan Synthetic Minority Oversampling Techniques (SMOTE). Hasil yang diperoleh dari penelitian yang dilakukan dalam melakukan balancing dataset menggunakan Random oversampling pada 3 dataset pengujian yang digunakan mendapatkan nilai rerata dengan nilai accuracy 90.41%, precision 83.42%, recall 81.37%, dan F1-Score 82.17%. Sedangkan pengujian yang dilakukan terhadap 3 dataset yang digunakan menggunakan SMOTE mendapatkan nilai rerata dengan nilai accuracy 90.12%, precision 85.34%, recall 84.33%, dan F1-Score 84.78%. Kata kunci: Imbalanced Dataset, Misclassification, Random Oversampling, SMOTE.

URI
https://repo.itera.ac.id/depan/submission/SB2307280007

Keyword