Evaluasi SMOTE dan ADASYN dalam Mengatasi Imbalance
Data pada Machine Learning Classification
Ketidakseimbangan data adalah kondisi di mana jumlah instance dalam satu kelas
jauh lebih banyak dibandingkan dengan kelas lainnya, yang mengakibatkan kesalahan
klasifikasi (misclassification) pada model machine learning. Misclassification terdiri
dari False Positive dan False Negative. False Positive terjadi ketika model salah
mengklasifikasikan instance negatif sebagai positif, sedangkan False Negative terjadi
ketika model keliru mengklasifikasikan instance positif sebagai negatif. Kesalahan
klasifikasi ini dapat diminimalkan dengan menerapkan pendekatan oversampling pada
dataset. Teknik oversampling menambah data yang ada, sehingga meningkatkan
kapasitas pembelajaran model. Penelitian ini menggunakan metode Synthetic Minority
Over-sampling Technique (SMOTE) dan Adaptive Synthetic Sampling Approach
(ADASYN) sebagai metode oversampling yang dipilih. Kedua metode ini
memanfaatkan k-tetangga terdekat untuk menghasilkan instance sintetis, dan
eksperimen dilakukan dengan nilai k sebesar 1, 3, 5, 7, dan 9. Dataset yang digunakan
dalam penelitian ini bersumber dari Kaggle, khususnya dataset Heart Failure, Cancer,
Stroke, Fetal Health, dan Chronic Kidney. Penelitian ini bertujuan untuk mengevaluasi
efektivitas metode SMOTE dan ADASYN pada berbagai nilai k dalam kombinasi
dengan algoritma Random Forest. Performa model dinilai menggunakan Confusion
Matrix berdasarkan metrik seperti accuracy, precision, recall, dan f1-score. Hasil
menunjukkan bahwa metode SMOTE meningkatkan rata-rata accuracy 90.43
URI
https://repo.itera.ac.id/depan/submission/SB2412200017
Keyword
Imbalance Data Missclassification SMOTE ADASYN Random Forest