(0721) 8030188    [email protected]   

All of ITERA Repository
Titles

ANALISIS OPTIMASI HYPERPARAMETER DAN EVALUASI METODE OVERSAMPLING PADA RANDOM FOREST DAN XGBOOST UNTUK DATA DENGAN KETIDAKSEIMBANGAN EKSTREM


View/Open

Author

Date Published
30 Nov -0001

Advisor
I Wayan Wiprayoga Wisesa, S.Kom., M.Kom.,
Andika Setiawan, S.Kom., M.Cs.,

Subject
Teknik Informatika

Publisher


Penelitian ini menganalisis keterkaitan antara optimasi hyperparameter dan metode oversampling pada data tidak seimbang, di mana teknik oversampling SMOTE dan ADASYN berpotensi menyebabkan overfitting tanpa optimasi hyperparameter yang tepat. Permasalahan utama meliputi pengaruh optimasi hyperparameter (TPE dan Grid Search) terhadap kompleksitas model serta perbandingan kinerja SMOTE dan ADASYN pada Random Forest dan XGBoost. Menggunakan dataset ULB, penelitian ini menerapkan eksperimen komparatif dengan menerapkan kedua teknik oversampling dan optimasi (TPE dan Grid Search) pada kedua model (Random Forest dan XGBoost), dievaluasi menggunakan metrik F1-score, AUC-ROC, Precision, Recall, dan MCC. Hasil menunjukkan bahwa: (1) TPE meningkatkan kompleksitas melalui penambahan jumlah pohon namun membatasi kedalaman pohon untuk mencegah overfitting sedangkan Grid hanya memilih nilai hyperparameter secara acak; (2) Hyperparameter max_depth (RF (SMOTE + Grid), RF (SMOTE + TPE), RF (ADASYN + Grid), RF (ADASYN + TPE), XGB (SMOTE + Grid), XGB (ADASYN + Grid)) memberikan kontribusi dominan terhadap kinerja, disusul learning rate pada XGboost (XGB (SMOTE + TPE), XGB (ADASYN + TPE)); (3) SMOTE mendapatkan hasil terbaik Random Forest dengan nilai MCC sebesar 85.7\%, sementara ADASYN menhasilkan hasil terbaik untuk XGBoost dengan nilai MCC sebesar 84.8\%. Kesimpulannya, pemilihan oversampling harus disesuaikan dengan algoritma dan strategi optimasi, dengan penekanan pada eksplorasi max_depth guna mencapai keseimbangan kompleksitas dan kemampuan generalisasi. Temuan merekomendasikan integrasi SMOTE untuk Random Forest dan ADASYN untuk XGBoost dalam skenario deteksi penipuan berbasis data tidak seimbang.

URI
https://repo.itera.ac.id/depan/submission/SB2601050011

Keyword
Oversampling Machine Learning Ketidakseimbangan kelas Optimasi Hyperparameter