(0721) 8030188    [email protected]   

All of ITERA Repository
Titles

PENINGKATAN KINERJA MODEL CONV-TASNET UNTUK SPEECH SEPARATION MELALUI FINE-TUNING PADA AUDIO LOW-FIDELITY BERBAHASA INDONESIA


Penelitian ini mengkaji peningkatan performa model pemisahan suara Conv-TasNet pada domain low-fidelity berbahasa Indonesia melalui proses fine-tuning. Model baseline Conv-TasNet yang dilatih pada dataset LibriMix menunjukkan performa rendah ketika diuji pada rekaman ponsel, dengan SI- SDR sebesar -29.75 dB. Untuk mengatasi hal tersebut, peneliti mengumpulkan dataset baru berupa rekaman audio nyata dari ponsel dan melakukan fine-tuning dengan tiga konfigurasi pelatihan. Hasil menunjukkan bahwa konfigurasi v2 (learning rate 5 × 10−4, segmen 4 detik, batch size 8, dan dynamic remix) memberikan peningkatan terbaik dengan SI-SDR -25.28 dB, atau improvement +4.47 dB. Evaluasi kualitatif melalui survei pendengar juga menunjukkan peningkatan kejernihan kata, kebersihan suara, dan kemudahan identifikasi gender. Temuan ini membuktikan bahwa fine-tuning dengan low-fidelity audio dapat meningkatkan kemampuan generalisasi Conv-TasNet pada kondisi dunia nyata.

URI
https://repo.itera.ac.id/depan/submission/SB2601150045

Keyword
Deep Learning Audio Processing Speech Separation Conv-TasNet