Perbandingan
K-mer 4 dan K-Mer 6 dengan IPCA untuk Klasifikasi
Taksonomi 16S rRNA Tingkat Phylum berbasis Naïve Bayes
Gen 16S ribosomal RNA (rRNA) merupakan penanda molekuler
utama untuk identifikasi dan klasifikasi taksonomi mikroorganisme,
khususnya pada wilayah variabel V3–V4 yang memiliki kapasitas
diskriminatif optimal.
Namun, kompleksitas data sekuens
nukleotida ini menuntut pendekatan komputasi yang efisien untuk
ekstraksi fitur dan reduksi dimensi. Oleh karena itu, penelitian ini
membandingkan fitur k-mer (k = 4 dan k = 6) serta reduksi dimensi
Incremental Principal Component Analysis (IPCA) untuk
klasifikasi taksonomi 16S rRNA tingkat phylum menggunakan
Gaussian Naïve Bayes. Pada ambang Cumulative Explained
Variance (CEV) 95%, IPCA memerlukan 150 komponen untuk
k = 4 dan 2.062 komponen untuk k = 6. Hasil klasifikasi
menunjukkan k = 4 lebih unggul (akurasi ∼ 93%; macro
ROC–AUC 0,98) dibanding k = 6 (akurasi 78%; macro ROC–AUC
0,96), sehingga kombinasi k = 4 + IPCA lebih optimal dalam
efisiensi dan kinerja
URI
https://repo.itera.ac.id/depan/submission/SB2605040030
Keyword
K-mer, Klasifikasi Phylum, IPCA, Naïve Bayes, Taks