ANALISIS OPTIMASI HYPERPARAMETER DAN
EVALUASI METODE OVERSAMPLING PADA
RANDOM FOREST DAN XGBOOST UNTUK DATA
DENGAN KETIDAKSEIMBANGAN EKSTREM
Penelitian ini menganalisis keterkaitan antara optimasi hyperparameter dan
metode oversampling pada data tidak seimbang, di mana teknik oversampling
SMOTE dan ADASYN berpotensi menyebabkan overfitting tanpa optimasi
hyperparameter yang tepat. Permasalahan utama meliputi pengaruh optimasi
hyperparameter (TPE dan Grid Search) terhadap kompleksitas model serta
perbandingan kinerja SMOTE dan ADASYN pada Random Forest dan XGBoost.
Menggunakan dataset ULB, penelitian ini menerapkan eksperimen komparatif
dengan menerapkan kedua teknik oversampling dan optimasi (TPE dan
Grid Search) pada kedua model (Random Forest dan XGBoost), dievaluasi
menggunakan metrik F1-score, AUC-ROC, Precision, Recall, dan MCC.
Hasil menunjukkan bahwa: (1) TPE meningkatkan kompleksitas melalui
penambahan jumlah pohon namun membatasi kedalaman pohon untuk mencegah
overfitting sedangkan Grid hanya memilih nilai hyperparameter secara acak;
(2) Hyperparameter max depth (RF (SMOTE + Grid), RF (SMOTE + TPE),
RF (ADASYN + Grid), RF (ADASYN + TPE), XGB (SMOTE + Grid), XGB
(ADASYN + Grid)) memberikan kontribusi dominan terhadap kinerja, disusul
learning rate pada XGboost (XGB (SMOTE + TPE), XGB (ADASYN + TPE));
(3) SMOTE mendapatkan hasil terbaik Random Forestdengan nilai MCC
sebesar 85.7%, sementara ADASYN menhasilkan hasil terbaik untuk XGBoost
dengan nilai MCC sebesar 84.8%. Kesimpulannya, pemilihan oversampling
harus disesuaikan dengan algoritma dan strategi optimasi, dengan penekanan
pada eksplorasi max depth guna mencapai keseimbangan kompleksitas dan
kemampuan generalisasi. Temuan merekomendasikan integrasi SMOTE untuk
Random Forest dan ADASYN untuk XGBoost dalam skenario deteksi penipuan
berbasis data tidak seimbang.
Kata Kunci: Oversampling, SMOTE, ADASYN, Optimasi
hyperparameter, Random Forest, XGBoost, Deteksi penipuan kartu kredit.
URI
https://repo.itera.ac.id/depan/submission/SB2602020031
Keyword
Machine Learning Hyperparameter Imbalanced Data Random Forest XGBoost