(0721) 8030188    [email protected]   

ANALISIS OPINI PUBLIK PADA KOMENTAR SOSIAL MEDIA X (TWITTER) TERHADAP GEMPA MEGATHRUST MENGGUNAKAN TF-IDF + N-GRAM DAN ALGORITMA DECISION TREE


Indonesia merupakan wilayah rawan gempa bumi karena berada pada pertemuan empat lempeng tektonik, salah satunya adalah gempa megathrust yang terjadi di zona subduksi antara lempeng Indo-Australia dan Eurasia. Penelitian ini melakukan analisis sentimen terhadap isu potensi gempa megathrust menggunakan data dari media sosial X (sebelumnya Twitter), dengan tujuan membandingkan performa model decision tree berdasarkan dua metode ekstraksi fitur yaitu TF-IDF dikombinasikan dengan N-gram (unigram, bigram, dan trigram). Data dikumpulkan melalui proses crawling, kemudian diproses melalui tahapan praproses teks, pelabelan sentimen menggunakan VADER, serta penyeimbangan kelas dengan metode SMOTE. Model decision tree dioptimalkan menggunakan grid search dan evaluasi dengan matriks konfusi. Hasil menunjukkan bahwa model dengan fitur TF-IDF unigram memberikan akurasi tertinggi sebesar 93%, diikuti oleh model TF-IDF bigram sebesar 91%, dan model TF-IDF trigram 90%. Meskipun N-gram mampu menangkap konteks frasa yang lebih luas, TF-IDF unigram menghasilkan performa yang lebih optimal serta mudah diinterpretasikan. Selain itu, hasil uji McNemar menunjukkan bahwa performa model unigram berbeda signifikan secara statistik dibandingkan bigram (p = 0,0310) dan trigram (p = 0,0311) pada tingkat signifikansi 5%.

URI
https://repo.itera.ac.id/depan/submission/SB2508050025

Keyword
Decision Tree N-Gram SMOTE TF-IDF Uji McNemar