(0721) 8030188    [email protected]   

KLASIFIKASI KETEPATAN KELULUSAN MAHASISWA DENGAN K-NEAREST NEIGHBOR DAN PENANGANAN IMBALANCED DATA (STUDI KASUS : JURUSAN KIMIA UNIVERSITAS XYZ)


Menurut Peraturan BAN-PT Nomor 5 Tahun 2019, kelulusan tepat waktu menjadi indikator penting dalam menilai kinerja program studi. Namun, data dari Jurusan Kimia Universitas XYZ menunjukkan bahwa rata-rata kelulusan tepat waktu pada periode 2016-2019 masih di bawah 50%. Teknik klasifikasi k-nearest neighbor (KNN) dapat digunakan untuk memprediksi mahasiswa yang berpotensi mengalami keterlambatan kelulusan. Namun, imbalanced data dapat menyebabkan misclassification dalam proses klasifikasi. Implementasi resampling dengan random undersampling (RUS) dan random oversampling (ROS) dapat menanggulangi imbalanced data yang terjadi. Hasil analisis korelasi phi dan chi square yang dilakukan pada beberapa atribut diduga berpengaruh secara signifikan pada klasifikasi kelulusan mahasiswa tepat waktu, dengan hasil yaitu indeks prestasi semester (IPS) 1-5. Hasil klasifikasi KNN terbaik pada data pengujian diperoleh berdasarkan balanced akurasi, presisi, recall, dan specificity pada imbalanced data dengan jarak manhattan dan k=7 yaitu 80%, 94%, 91%, dan 69%. Balanced data dengan RUS dengan jarak euclidean dan k=9 yaitu 88%, 100%, 75%, dan 100%. Balanced data dengan ROS dengan jarak euclidean dan k=5 yaitu 80%, 95%, 83%, dan 77%. Implementasi balanced data berhasil meningkatkan balanced akurasi, presisi, dan specificity dibandingkan imbalanced data secara konsisten pada setiap parameter jarak (euclidean dan manhattan) dan tetangga (3, 5, 7 dan 9). Algoritma KNN dengan parameter jarak euclidean tidak lebih unggul dari manhattan dan sebaliknya pada imbalanced dan balanced data berdasarkan metrik evaluasi yang digunakan tidak menunjukkan parameter jarak tertentu unggul secara konsisten terhadap parameter jarak lainnya.

URI
https://repo.itera.ac.id/depan/submission/SB2409240180

Keyword
Kelulusan Mahasiswa Tepat Waktu Klasifikasi K-Nearest Neighbor Imbalanced Data Resampling