PENINGKATAN KINERJA MODEL CONV-TASNET UNTUK SPEECH SEPARATION MELALUI FINE-TUNING PADA AUDIO LOW-FIDELITY BERBAHASA INDONESIA
Penelitian ini mengkaji peningkatan performa model pemisahan suara Conv-TasNet pada domain low-fidelity berbahasa Indonesia melalui proses fine-tuning. Model baseline Conv-TasNet yang dilatih pada dataset LibriMix menunjukkan performa rendah ketika diuji pada rekaman ponsel, dengan SI- SDR sebesar -29.75 dB. Untuk mengatasi hal tersebut, peneliti mengumpulkan dataset baru berupa rekaman audio nyata dari ponsel dan melakukan fine-tuning dengan tiga konfigurasi pelatihan. Hasil menunjukkan bahwa konfigurasi v2 (learning rate 5 × 10−4, segmen 4 detik, batch size 8, dan dynamic remix) memberikan peningkatan terbaik dengan SI-SDR -25.28 dB, atau improvement
+4.47 dB. Evaluasi kualitatif melalui survei pendengar juga menunjukkan peningkatan kejernihan kata, kebersihan suara, dan kemudahan identifikasi gender. Temuan ini membuktikan bahwa fine-tuning dengan low-fidelity audio dapat meningkatkan kemampuan generalisasi Conv-TasNet pada kondisi dunia nyata.
URI
https://repo.itera.ac.id/depan/submission/SB2601150045
Keyword
Deep Learning Audio Processing Speech Separation Conv-TasNet