Perbandingan Incremental Principal Component Analysis dan Truncated Singular Value Decomposition untuk Klasifikasi Bakteri
Klasifikasi taksonomi bakteri berbasis gen 16S rRNA membutuhkan
representasi sekuens DNA dalam bentuk fitur numerik agar dapat
diproses oleh algoritma pembelajaran mesin. Namun, representasi
berbasis k-mer berbobot TF–IDF menghasilkan ruang fitur berdimensi
tinggi yang dapat meningkatkan beban komputasi dan penggunaan
memori. Oleh karena itu, diperlukan metode reduksi dimensi yang
mampu mempertahankan informasi penting sekaligus meningkatkan
efisiensi pemodelan.
Penelitian ini bertujuan membandingkan
Incremental Principal Component Analysis (IPCA) dan Truncated
Singular Value Decomposition (TSVD) sebagai metode reduksi
dimensi pada fitur k-mer (k = 6) berbobot TF–IDF untuk klasifikasi
bakteri tingkat phylum menggunakan Gaussian Naïve Bayes. Jumlah
komponen ditentukan berdasarkan ambang cumulative explained
variance sebesar 95%. Hasil penelitian menunjukkan bahwa IPCA
membutuhkan 2064 komponen, sedangkan TSVD membutuhkan 2041
komponen. Dari sisi efisiensi komputasi, TSVD lebih cepat dengan
waktu total sekitar 35,89 menit dibandingkan IPCA sekitar 53,90
menit, tetapi membutuhkan memori lebih besar dengan peak RSS
15,18 GiB, sedangkan IPCA sebesar 10,80 GiB. Kinerja klasifikasi
pada ruang fitur tereduksi menunjukkan hasil yang hampir identik,
dengan accuracy 0,766–0,767 dan ROC AUC macro sekitar 0,969.
Dengan demikian, TSVD lebih unggul dari sisi waktu komputasi,
sedangkan IPCA lebih hemat memori tanpa perbedaan kinerja
klasifikasi yang berarti pada konfigurasi penelitian ini.
URI
https://repo.itera.ac.id/depan/submission/SB2605200013
Keyword
16S rRNA K-mer TF–IDF Reduksi Dimensi IPCA TSVD Gaussian Naïve Bayes Phylum