(0721) 8030188    pusat@itera.ac.id   

Perbandingan Algoritma Oversampling K-Means SMOTE Dan Undersampling Cluster Centroids dengan Klasifikasi SVM


Dengan berkembangnya teknologi, banyak pekerjaan manusia yang telah dan akan digantikan oleh komputer, salah satunya adalah pengambilan keputusan. Pengambilan keputusan pada komputer memerlukan dataset sebagai pembelajaran data dalam klasifikasi. Tetapi tidak semua dataset memiliki kelas yang seimbang. Ketidakseimbangan dataset dapat menyebabkan pengambilan keputusan pada komputer menjadi bias ke arah kelas mayoritas. Untuk membuat sebuah dataset menjadi memiliki jumlah kelas mayoritas dan minoritas yang seimbang diperlukan sebuah metode resampling. Resampling merupakan sebuah metode untuk menyeimbangkan jumlah kelas mayoritas dan minoritas dengan cara memperbanyak jumlah kelas minoritas ataupun dengan mempersedikit jumlah kelas mayoritas. Pada penelitian ini digunakan algoritma oversampling K-Means SMOTE dan undersampling Cluster Centroids. Dataset yang dicari berjumlah lima dataset. Terdapat beberapa hal yang diperhatikan dalam pemilihan dataset yang akan digunakan. Di antaranya adalah jumlah data, jumlah kelas, dan ketidakseimbangan antara kelas mayoritas dan minoritas. Algoritma oversampling K-Means SMOTE bekerja dengan menggunakan algoritma pengelompokan K-Means yang sederhana dan populer bersama dengan algoritma oversampling SMOTE untuk menyeimbangkan kembali dataset yang tidak seimbang. Sedangkan algoritma undersampling Cluster Centroids adalah teknik undersampling yang representatif untuk mengurangi jumlah kelas mayoritas yang ingin dicapai dengan menghasilkan centroid berdasarkan metode pengelompokan (clustering), yang mana memilih subset representatif dari kelas mayoritas dengan mengganti sekelompok sampel mayoritas dengan Cluster Centroid dari algortima K-Means. Algortima oversampling K-Means SMOTE menghasilkan performa yang sangat baik pada salah satu dataset yang digunakan. Nilai AUC dari dataset bank yang dilakukan oversampling dengan menggunakan algoritma K-Means SMOTE, mendapatkan nilai AUC sebesar 0.49. Nilai AUC sebesar 0.49 yang didapatkan dataset bank yang dilakukan oversample dengan menggunakan algoritma K-Means SMOTE, menunjukkan bahwa nilai AUC yang dihasilkan lebih buruk daripada prediksi acak. Sedangkan algortima undersampling Cluster Centroids menghasilkan performa yang stabil pada dataset manapun.

URI
https://repo.itera.ac.id/depan/submission/SB2406110081

Keyword
K-Means SMOTE Cluster Centroids Support Vector Machine Oversampling Undersampling