Repository Institut teknologi Sumatera

ANALISIS OPTIMASI HYPERPARAMETER DAN EVALUASI METODE OVERSAMPLING PADA RANDOM FOREST DAN XGBOOST UNTUK DATA DENGAN KETIDAKSEIMBANGAN EKSTREM

View/Open

Author
Raihan Alghiffari,

Date Published
09 Dec 2025

Advisor
I Wayan Wiprayoga Wisesa, S.Kom., M.Kom.,
Andika Setiawan, S.Kom., M.Cs.,

Subject
Teknik Informatika

Publisher

Penelitian ini menganalisis keterkaitan antara optimasi hyperparameter dan metode oversampling pada data tidak seimbang, di mana teknik oversampling SMOTE dan ADASYN berpotensi menyebabkan overfitting tanpa optimasi hyperparameter yang tepat. Permasalahan utama meliputi pengaruh optimasi hyperparameter (TPE dan Grid Search) terhadap kompleksitas model serta perbandingan kinerja SMOTE dan ADASYN pada Random Forest dan XGBoost. Menggunakan dataset ULB, penelitian ini menerapkan eksperimen komparatif dengan menerapkan kedua teknik oversampling dan optimasi (TPE dan Grid Search) pada kedua model (Random Forest dan XGBoost), dievaluasi menggunakan metrik F1-score, AUC-ROC, Precision, Recall, dan MCC. Hasil menunjukkan bahwa: (1) TPE meningkatkan kompleksitas melalui penambahan jumlah pohon namun membatasi kedalaman pohon untuk mencegah overfitting sedangkan Grid hanya memilih nilai hyperparameter secara acak; (2) Hyperparameter max depth (RF (SMOTE + Grid), RF (SMOTE + TPE), RF (ADASYN + Grid), RF (ADASYN + TPE), XGB (SMOTE + Grid), XGB (ADASYN + Grid)) memberikan kontribusi dominan terhadap kinerja, disusul learning rate pada XGboost (XGB (SMOTE + TPE), XGB (ADASYN + TPE)); (3) SMOTE mendapatkan hasil terbaik Random Forestdengan nilai MCC sebesar 85.7%, sementara ADASYN menhasilkan hasil terbaik untuk XGBoost dengan nilai MCC sebesar 84.8%. Kesimpulannya, pemilihan oversampling harus disesuaikan dengan algoritma dan strategi optimasi, dengan penekanan pada eksplorasi max depth guna mencapai keseimbangan kompleksitas dan kemampuan generalisasi. Temuan merekomendasikan integrasi SMOTE untuk Random Forest dan ADASYN untuk XGBoost dalam skenario deteksi penipuan berbasis data tidak seimbang. Kata Kunci: Oversampling, SMOTE, ADASYN, Optimasi hyperparameter, Random Forest, XGBoost, Deteksi penipuan kartu kredit.

URI
https://repo.itera.ac.id/depan/submission/SB2602020031

Keyword
Machine Learning Hyperparameter Imbalanced Data Random Forest XGBoost