Repository Institut teknologi Sumatera

PENINGKATAN KINERJA MODEL CONV-TASNET UNTUK SPEECH SEPARATION MELALUI FINE-TUNING PADA AUDIO LOW-FIDELITY BERBAHASA INDONESIA

View/Open

Author
Fransiskus, Xaverius Gunawan

Date Published
16 Jan 2026

Advisor
Martin Clinton Tosima Manullang, S.T., M.T., Ph.D.,

Subject
Teknik Informatika

Publisher

Penelitian ini mengkaji peningkatan performa model pemisahan suara Conv-TasNet pada domain low-fidelity berbahasa Indonesia melalui proses fine-tuning. Model baseline Conv-TasNet yang dilatih pada dataset LibriMix menunjukkan performa rendah ketika diuji pada rekaman ponsel, dengan SI- SDR sebesar -29.75 dB. Untuk mengatasi hal tersebut, peneliti mengumpulkan dataset baru berupa rekaman audio nyata dari ponsel dan melakukan fine-tuning dengan tiga konfigurasi pelatihan. Hasil menunjukkan bahwa konfigurasi v2 (learning rate 5 × 10−4, segmen 4 detik, batch size 8, dan dynamic remix) memberikan peningkatan terbaik dengan SI-SDR -25.28 dB, atau improvement +4.47 dB. Evaluasi kualitatif melalui survei pendengar juga menunjukkan peningkatan kejernihan kata, kebersihan suara, dan kemudahan identifikasi gender. Temuan ini membuktikan bahwa fine-tuning dengan low-fidelity audio dapat meningkatkan kemampuan generalisasi Conv-TasNet pada kondisi dunia nyata.

URI
https://repo.itera.ac.id/depan/submission/SB2601150045

Keyword
Deep Learning Audio Processing Speech Separation Conv-TasNet