ANALISIS OPTIMASI HYPERPARAMETER DAN EVALUASI
METODE OVERSAMPLING PADA RANDOM FOREST DAN
XGBOOST UNTUK DATA DENGAN KETIDAKSEIMBANGAN
EKSTREM
Penelitian ini menganalisis keterkaitan antara optimasi hyperparameter dan
metode oversampling pada data tidak seimbang, di mana teknik oversampling
SMOTE dan ADASYN berpotensi menyebabkan overfitting tanpa optimasi
hyperparameter yang tepat. Permasalahan utama meliputi pengaruh optimasi
hyperparameter (TPE dan Grid Search) terhadap kompleksitas model serta
perbandingan kinerja SMOTE dan ADASYN pada Random Forest dan XGBoost.
Menggunakan dataset ULB, penelitian ini menerapkan eksperimen komparatif
dengan menerapkan kedua teknik oversampling dan optimasi (TPE dan
Grid Search) pada kedua model (Random Forest dan XGBoost), dievaluasi
menggunakan metrik F1-score, AUC-ROC, Precision, Recall, dan MCC.
Hasil menunjukkan bahwa: (1) TPE meningkatkan kompleksitas melalui
penambahan jumlah pohon namun membatasi kedalaman pohon untuk mencegah
overfitting sedangkan Grid hanya memilih nilai hyperparameter secara acak;
(2) Hyperparameter max depth (RF (SMOTE + Grid), RF (SMOTE + TPE),
RF (ADASYN + Grid), RF (ADASYN + TPE), XGB (SMOTE + Grid), XGB
(ADASYN + Grid)) memberikan kontribusi dominan terhadap kinerja, disusul
learning rate pada XGboost (XGB (SMOTE + TPE), XGB (ADASYN + TPE));
(3) SMOTE mendapatkan hasil terbaik Random Forestdengan nilai MCC
sebesar 85.7%, sementara ADASYN menhasilkan hasil terbaik untuk XGBoost
dengan nilai MCC sebesar 84.8%. Kesimpulannya, pemilihan oversampling
harus disesuaikan dengan algoritma dan strategi optimasi, dengan penekanan
pada eksplorasi max depth guna mencapai keseimbangan kompleksitas dan
kemampuan generalisasi. Temuan merekomendasikan integrasi SMOTE untuk
Random Forest dan ADASYN untuk XGBoost dalam skenario deteksi penipuan
berbasis data tidak seimbang.
Kata Kunci: Oversampling, SMOTE, ADASYN, Optimasi
hyperparameter, Random Forest, XGBoost, Deteksi penipuan kartu kredit.
URI
https://repo.itera.ac.id/depan/submission/SB2602030022
Keyword
Machine Learning Random Forest XGBoost Optimasi Hyperparameter Data Tidak Seimbang