(0721) 8030188    pusat@itera.ac.id   

Evaluasi Normalisasi Data Min-Max, Z-Score Dan Decimal Scaling Menggunakan Silhouette Coefficient Pada Algoritma K-Means


Normalisasi data adalah suatu kegiatan dalam data mining untuk memproses penskalaan nilai atribut dari data sehingga bisa jatuh pada range tertentu, contoh metode normalisasi Min-Max, Z-Score dan Decimal Scaling. Dalam dataset tertentu, terdapat rentang nilai yang berbeda untuk setiap atribut, perbedaan rentang nilai untuk setiap atribut menyebabkan atribut memiliki nilai yang jauh lebih kecil daripada yang lain menjadi tidak berfungsi, Oleh karena itu, perlu dilakukan transformasi data dengan normalisasi untuk menyeimbangkan range nilai setiap atribut dengan rasio tertentu. Perbandingan metode normalisasi untuk clustering masih sedikit dilakukan, dan untuk perbandingan metode normalisasi min-max, z-score dan decimal scaling pada clustering belum ada penelitian yang dilakukan. Untuk menguji hasil dari clustering diperlukan juga suatu metode evaluasi yang dapat mengukur kekuatan dan kualitas sebuah cluster, misalnya Silhouette Coefficient. Hasil penelitian didapat pada nilai Silhouette Coefficient dan runtime pada dataset 2 atribut dan dataset 5 atribut didapat hasil bahwa pada dataset Kelurahan metode Decimal Scaling sebagai metode normalisasi teroptimal dengan nilai Silhouette Coefficient tertinggi 0,641526803 dan untuk runtime didapat hasil bahwa Decimal Scaling sebagai metode normalisasi teroptimal dengan waktu tercepat yaitu 0,119366s. Untuk dataset Diamond juga mendapatkan hasil bahwa metode Decimal Scaling sebagai metode normalisasi teroptimal dengan nilai Silhouette Coefficient tertinggi 0,713333192 dan untuk runtime didapat hasil bahwa Decimal Scaling sebagai metode normalisasi teroptimal dengan waktu tercepat yaitu 2,809276s. Untuk dataset Employee mendapatkan hasil bahwa metode Min-Max sebagai metode normalisasi teroptimal dengan nilai Silhouette Coefficient tertinggi 0,44894939 dan untuk runtime didapat hasil bahwa Min-Max sebagai metode normalisasi teroptimal denganda waktu tercepat yaitu 3,6896046s. Untuk dataset IPL metode Decimal Scaling sebagai metode normalisasi teroptimal dengan nilai Silhouette Coefficient tertinggi 0,637489526 dan untuk runtime didapat didapat hasil bahwa Decimal Scaling sebagai metode normalisasi teroptimal dengan waktu tercepat yaitu 0,12341309s. Untuk dataset Energy juga mendapatkan hasil bahwa metode Decimal Scaling sebagai metode normalisasi teroptimal dengan nilai Silhouette Coefficient tertinggi 0,367177768 dan untuk runtime didapat hasil bahwa Min-Max sebagai metode normalisasi teroptimal dengan waktu tercepat yaitu 0,4449348s. Untuk dataset Concrete mendapatkan hasil bahwa metode Min-Max sebagai metode normalisasi teroptimal dengan nilai Silhouette Coefficient tertinggi 0,650475027 dan untuk runtime hasil bahwa Min-Max sebagai metode normalisasi teroptimal dengan waktu tercepat yaitu 0,7067729s. Jika dilihat hasil Silhouette Coeficient untuk dataset 2 atribut dan dataset 5 atribut pada kasus ini, dataset yang jumlah datanya kecil metode normalisasi yang paling baik adalah Decimal Scaling dan dataset yang jumlah datanya besar metode normalisasi yang paling baik adalah Min-Max.

URI
https://repo.itera.ac.id/depan/submission/SB2208120022

Keyword