PERBANDINGAN SELEKSI FITUR MUTUAL INFORMATION DAN CHI SQUARE TEST PADA ALGORITMA K–NEAREST NEIGHBOR
Machine learning (ML) yang merupakan bagian dari AI (Artificial Intelligence) merupakan suatu disiplin ilmu yang berfokus pada cara membangun sistem yang dapat berkembang secara otomatis dengan cara memberikan pengalaman pada sistem tersebut. Pengalaman mesin didapatkan dengan cara menyelesaikan suatu tugas yang mana hasil pembelajarannya akan digunakan untuk melakukan, prediksi, pengambilan keputusan, atau mendapatkan suatu pengetahuan. KNN yang merupakan salah satu metode klasifikasi memiliki beberapa kelebihan, yaitu kesederhanaan, keefektivitasan, dan kemampuannya untuk mengatasi data ber-noise. Tetapi, KNN memiliki kelemahan untuk melakukan klasifikasi pada data dengan jumlah fitur yang banyak. Oleh karena itu, dilakukanlah seleksi fitur yang mana merupakan metode untuk mengurangi jumlah fitur yang ada pada dataset. Chi-square dan mutual information merupakan salah satu metode seleksi fitur. Ada tiga dataset yang digunakan dimana masing-masing dataset memiliki jumlah fitur yang berbeda-beda yaitu 6, 16, dan 22. Penggunaan data dengan karakteristik yang berbeda dapat berdampak positif dalam penelitian karena dapat menghindari bias dan overfitting. Seleksi fitur akan digunakan kepada ketiga data ini dan kemudian akan dilakukan learning dengan KNN dimana hasilnya akan dievaluasi menggunakan confusion matrix dan akan dibandingkan antara mutual information, chi-square, dan tanpa seleksi fitur. Hasilnya adalah setiap data memiliki hasil terbaik dengan metode yang berbeda dimana chi-square memiliki akurasi tertinggi pada dataset bank marketing sebesar 69,61%, mutual information memiliki akurasi tertinggi pada dataset mushroom sebesar 100%, dan dataset car evaluation mendapatkan hasil terbaik tanpa menggunakan seleksi fitur yaitu sebesar 90,94%.
URI
https://repo.itera.ac.id/depan/submission/SB2508270038
Keyword
Machine Learning KNN Chi-square Mutual Information