(0721) 8030188    pusat@itera.ac.id   

Penanganan Imbalanced Data pada Indeks Standar Pencemaran Udara dengan Reverse-SMOTE


Teknologi yang akhir-akhir ini acap kali digunakan untuk mengatasi permasalahan adalah teknologi di bidang data mining. Salah satu kemampuan dari data mining yaitu untuk pengklasfikasian. Klasifikasi sendiri merupakan pengelompokan data berdasarkan keterikatan data terhadap data sampel. Pada pengklasifikasian data, terdapat suatu masalah yang acap kali terjadi, yaitu misclassification. Misclassification sendiri disebabkan oleh tidak seimbangnya rasio data mayoritas dan data minoritas, ketidakseimbangan ini biasa disebut dengan imbalanced data. Ketidakseimbangan tersebut menyebabkan proses pengklasifikasian akan lebih condong terhadap data mayoritas. Misclassification dapat ditekan dengan cara menyeimbangkan jumlah data pada tiap kategori, penyeimbangan dapat dilakukan dengan menggunakan metode reverse-SMOTE. Salah satu dataset yang mengalami imbalaced data adalah dataset Indeks Standar Pencemaran Udara DKI Jakarta, selain itu imbalanced data terjadi pula pada dataset Kanker Payudara, Asteroseismologi, Ortopedi, dan Wine. Dengan menggunakan Reverse-SMOTE, kelima dataset berhasil diubah menjadi balanced. Hasil pengklasifikasian menggunakan Artificial Neural Network pada imbalanced dan balanced dataset di kelima dataset menunjukkan bahwa nilai accuracy, precision, dan f-measure mengalami kenaikan pada seluruh dataset. Sedangkan nilai recall hanya mengalami kenaikan pada dataset Wine, pada dataset lainnya mengalami penurunan. Penurunan tersebut terjadi karena terdapat beberapa baris data berkategori positif pada data testing yang dimana saat diuji dengan menggunakan imbalanced data training tidak memiliki kedekatan dengan kategori negatif, tetapi ketika diuji dengan menggunakan balanced data training justru memiliki kedekatan dengan kategori negatif. Kata Kunci : Data Mining, Imbalanced Data, Reverse-SMOTE, Indeks Standar Pencemaran Udara

URI
https://repo.itera.ac.id/depan/submission/SB2205300010

Keyword