(0721) 8030188    pusat@itera.ac.id   

IMPLEMENTASI PEMODELAN CNN PADA SPEECH EMOTION RECOGNITION UNTUK DETEKSI EMOSI PADA REKAMAN SUARA BERBAHASA INDONESIA


Keadaan emosional seseorang adalah suatu faktor yang sangat krusial pada proses hubungan antar manusia, dan dapat mempengaruhi beberapa aspek pada proses komunikasi, mirip seperti ekspresi wajah, dan karakteristik suara. Speech Emotion Recognition (SER) bertujuan untuk secara otomatis mengidentifikasi keadaan emosional atau fisik manusia dari suaranya. Penelitian tentang SER dengan menggunakan bahasa Indonesia masih sangat jarang karena adanya keterbatasan pada dataset natural yang ada. Oleh karena itu pada penelitian ini akan dilakukan penerapan algoritma pemodelan Convolutional Neural-Network (CNN) pada SER untuk melakukan deteksi emosi pada rekaman suara berbahasa Indonesia. Implementasi dari pemodelan ini akan menggunakan mel-frequency cepstrum coefficient (MFCC) sebagai metode ekstraksi fitur. Dataset yang akan digunakan adalah dataset rekaman suara berbahasa Indonesia dengan 4 jenis emosi yaitu Marah, Senang, Sedih, dan Netral. Setelah dilakukan percobaan dengan menggunakan model arsitektur CNN 6 layer dan fitur ekstraksi MFCC berhasil di dapatkan hasil nilai akurasi sebesar 75%. Lalu setelah dilakukan pengujian pada tiap data yang ada didapatkan nilai akurasi sebesar 76

URI
https://repo.itera.ac.id/depan/submission/SB2406070113

Keyword
Emosi Speech Emotion Recognition Convolutional Neural-Network mel-frequency cepstrum coefficient