(0721) 8030188    pusat@itera.ac.id   

[INFORMATIKA - 2017] Identifikasi Kalimat Penting untuk Ekstraksi Informasi 5W1H pada Teks Berita dengan Sequence Labeling


Ekstraksi Informasi 5W1H mengidentifikasi siapa melakukan apa, kapan, dimana, mengapa, dan bagaimana. Suatu teks berita perlu distrukturkan sehingga akan didapatkan pemahaman yang lebih baik terhadap teks berita itu sendiri. Melabeli teks berita Bahasa Indonesia dengan menggunakan notasi BIO (Begin In Others) memberikan nilai f-measure tertinggi sebesar 0,666. Pada tugas akhir ini, akan diteliti apakah dengan melakukan pemilihan kalimat penting dari suatu artikel dapat meningkatkan kinerja sequence labeling dengan notasi BIO dalam mengekstraksi informasi 5W1H, serta untuk menemukan kombinasi fitur terbaik pada tahapan identifikasi kalimat penting. Setiap kalimat dari suatu berita akan diekstraksi fitur berdasarkan fitur surface dan semantic untuk menghasilkan model identifikasi kalimat penting. Fitur-fitur tersebut adalah term weight, sentence location, sentence length, number of named entity, title words overlap rate, dan informativeness of news headline. N kalimat penting kemudian ditokenisasi, diekstraksi fitur, dan dilabeli dengan menggunakan sequence labeling berdasarkan notasi BIO. Fitur yang digunakan dibagi menjadi 6 grup fitur yaitu leksikal, POS tag, NE tag, left prediction, DateTimePattern, dan TitleToken. Fitur terbaik untuk mengklasifikasikan kalimat penting yaitu term weight dan sentence location. Hasil ekstraksi informasi terbaik didapatkan dengan menggunakan Naïve Bayes dan menyeleksi fitur is time pattern, memberikan nilai f-measure sebesar 0.860. Identifikasi kalimat penting berhasil meningkatkan nilai f-measure ekstraksi informasi 5W1H yang dilakukan dengan sequence labeling.

URI
https://repo.itera.ac.id/depan/submission/SB1803210007

Keyword
Ekstraksi Informasi 5W1H; Identifikasi Kalimat Penting; Sequence Labeling; Notasi BIO; Naïve Bayes;