Analisis Klasifikasi Pada Penyakit Diabetes Menggunakan Metode Random Forest Berbasis Synthetic Minority Oversampling Techniques-Nominal Continuous (SMOTE-NC)
Diabetes merupakan penyakit kronis dengan prevalensi tinggi di
Indonesia, sehingga diperlukan sistem deteksi dini yang akurat dan
andal. Penelitian ini menggunakan algoritma Random Forest berbasis
Synthetic Minority Oversampling Technique–Nominal Continuous
(SMOTE-NC) untuk mengatasi ketidakseimbangan kelas pada dataset
BRFSS 2015 yang berjumlah 253.680 entri dengan 22 variabel. Data
dibagi menggunakan stratified split (80:20), kemudian dilakukan
penyeimbangan kelas dengan SMOTE-NC, optimasi hyperparameter
melalui GridSearchCV, serta evaluasi menggunakan 5-fold cross
validation. Hasil penelitian menunjukkan bahwa model random forest
berbasis SMOTE-NC mencapai akurasi sebesar 91% pada F1-Score.
Selain itu, random forest juga mampu mengidentifikasi variabel paling
berpengaruh terhadap klasifikasi risiko diabetes. Dengan demikian,
integrasi random forest berbasis SMOTE-NC terbukti efektif dalam
membangun sistem deteksi dini diabetes yang lebih seimbang, akurat,
dan dapat diandalkan.
URI
https://repo.itera.ac.id/depan/submission/SB2509020016
Keyword
Diabetes Random Forest SMOTE-NC Klasifikasi Machine Learning