Pengaruh Cumulative Explained Variance pada Incremental Principal Component Analysis terhadap Klasifikasi Naïve Bayes 16S rRNA Berbasis k-mer
Klasifikasi taksonomi bakteri menggunakan gen 16S rRNA menghadapi tantangan dimensi data tinggi akibat penggunaan representasi fitur berbasis k-mer. Dimensi fitur yang tinggi akan membebani sumber daya komputasi serta berpotensi memicu fenomena curse of dimensionality. Penelitian ini bertujuan menganalisis pengaruh variasi Cumulative Explained Variance (CEV) pada metode Incremental Principal Component Analysis (IPCA) terhadap kinerja klasifikasi algoritma Naïve Bayes pada tingkat Phylum. Dataset sekuens 16S rRNA wilayah V3-V4 dari basis data SILVA dikonversi menjadi fitur k-mer dengan panjang k=6 (4.096 fitur). Reduksi dimensi dilakukan menggunakan IPCA dengan variasi target CEV mulai dari 0,50 hingga 0,95. Hasil eksperimen menunjukkan peningkatan target variansi tidak selalu berbanding lurus dengan peningkatan akurasi. Nilai CEV 0,60 ditetapkan sebagai titik optimal yang menghasilkan Akurasi tertinggi sebesar 96,89%, Weighted F1-Score 97,05%, dan AUC 0,9994. CEV 0,60 berhasil mereduksi dimensi sebesar 97,12% (menyisakan 118 komponen utama) dengan waktu komputasi selama 68,0 detik. Target CEV tinggi (0,95) justru menurunkan akurasi secara signifikan menjadi 81,12% akibat masuknya komponen variansi kecil yang bersifat noise. Studi ini menyimpulkan bahwa mempertahankan informasi penting dengan dimensi rendah lebih efektif dibandingkan memaksimalkan variansi total.
URI
https://repo.itera.ac.id/depan/submission/SB2604300038
Keyword
16S rRNA Cumulative Explained Variance IPCA k-mer Naïve Bayes