(0721) 8030188    [email protected]   

Evaluasi SMOTE dan ADASYN dalam Mengatasi Imbalance Data pada Machine Learning Classification


Ketidakseimbangan data adalah kondisi di mana jumlah instance dalam satu kelas jauh lebih banyak dibandingkan dengan kelas lainnya, yang mengakibatkan kesalahan klasifikasi (misclassification) pada model machine learning. Misclassification terdiri dari False Positive dan False Negative. False Positive terjadi ketika model salah mengklasifikasikan instance negatif sebagai positif, sedangkan False Negative terjadi ketika model keliru mengklasifikasikan instance positif sebagai negatif. Kesalahan klasifikasi ini dapat diminimalkan dengan menerapkan pendekatan oversampling pada dataset. Teknik oversampling menambah data yang ada, sehingga meningkatkan kapasitas pembelajaran model. Penelitian ini menggunakan metode Synthetic Minority Over-sampling Technique (SMOTE) dan Adaptive Synthetic Sampling Approach (ADASYN) sebagai metode oversampling yang dipilih. Kedua metode ini memanfaatkan k-tetangga terdekat untuk menghasilkan instance sintetis, dan eksperimen dilakukan dengan nilai k sebesar 1, 3, 5, 7, dan 9. Dataset yang digunakan dalam penelitian ini bersumber dari Kaggle, khususnya dataset Heart Failure, Cancer, Stroke, Fetal Health, dan Chronic Kidney. Penelitian ini bertujuan untuk mengevaluasi efektivitas metode SMOTE dan ADASYN pada berbagai nilai k dalam kombinasi dengan algoritma Random Forest. Performa model dinilai menggunakan Confusion Matrix berdasarkan metrik seperti accuracy, precision, recall, dan f1-score. Hasil menunjukkan bahwa metode SMOTE meningkatkan rata-rata accuracy 90.43

URI
https://repo.itera.ac.id/depan/submission/SB2412200017

Keyword
Imbalance Data Missclassification SMOTE ADASYN Random Forest