(0721) 8030188    [email protected]   

All of ITERA Repository
Titles

Perbandingan Incremental Principal Component Analysis dan Truncated Singular Value Decomposition untuk Klasifikasi Bakteri


View/Open

Author
Alvia Asrinda Br.Ginting,

Date Published
19 May 2026

Advisor
Tirta Setiawan, S.Pd., M.Si.,
Fajri Farid, M.Sc.,

Subject
Sains Data

Publisher


Klasifikasi taksonomi bakteri berbasis gen 16S rRNA membutuhkan representasi sekuens DNA dalam bentuk fitur numerik agar dapat diproses oleh algoritma pembelajaran mesin. Namun, representasi berbasis k-mer berbobot TF–IDF menghasilkan ruang fitur berdimensi tinggi yang dapat meningkatkan beban komputasi dan penggunaan memori. Oleh karena itu, diperlukan metode reduksi dimensi yang mampu mempertahankan informasi penting sekaligus meningkatkan efisiensi pemodelan. Penelitian ini bertujuan membandingkan Incremental Principal Component Analysis (IPCA) dan Truncated Singular Value Decomposition (TSVD) sebagai metode reduksi dimensi pada fitur k-mer (k = 6) berbobot TF–IDF untuk klasifikasi bakteri tingkat phylum menggunakan Gaussian Naïve Bayes. Jumlah komponen ditentukan berdasarkan ambang cumulative explained variance sebesar 95%. Hasil penelitian menunjukkan bahwa IPCA membutuhkan 2064 komponen, sedangkan TSVD membutuhkan 2041 komponen. Dari sisi efisiensi komputasi, TSVD lebih cepat dengan waktu total sekitar 35,89 menit dibandingkan IPCA sekitar 53,90 menit, tetapi membutuhkan memori lebih besar dengan peak RSS 15,18 GiB, sedangkan IPCA sebesar 10,80 GiB. Kinerja klasifikasi pada ruang fitur tereduksi menunjukkan hasil yang hampir identik, dengan accuracy 0,766–0,767 dan ROC AUC macro sekitar 0,969. Dengan demikian, TSVD lebih unggul dari sisi waktu komputasi, sedangkan IPCA lebih hemat memori tanpa perbedaan kinerja klasifikasi yang berarti pada konfigurasi penelitian ini.

URI
https://repo.itera.ac.id/depan/submission/SB2605200013

Keyword
16S rRNA K-mer TF–IDF Reduksi Dimensi IPCA TSVD Gaussian Naïve Bayes Phylum