[INFORMATIKA - 2017] Identifikasi Kalimat Penting untuk Ekstraksi Informasi 5W1H pada Teks Berita dengan Sequence Labeling
Ekstraksi Informasi 5W1H mengidentifikasi siapa melakukan apa, kapan, dimana,
mengapa, dan bagaimana. Suatu teks berita perlu distrukturkan sehingga akan
didapatkan pemahaman yang lebih baik terhadap teks berita itu sendiri. Melabeli
teks berita Bahasa Indonesia dengan menggunakan notasi BIO (Begin In Others)
memberikan nilai f-measure tertinggi sebesar 0,666. Pada tugas akhir ini, akan
diteliti apakah dengan melakukan pemilihan kalimat penting dari suatu artikel dapat
meningkatkan kinerja sequence labeling dengan notasi BIO dalam mengekstraksi
informasi 5W1H, serta untuk menemukan kombinasi fitur terbaik pada tahapan
identifikasi kalimat penting.
Setiap kalimat dari suatu berita akan diekstraksi fitur berdasarkan fitur surface dan
semantic untuk menghasilkan model identifikasi kalimat penting. Fitur-fitur
tersebut adalah term weight, sentence location, sentence length, number of named
entity, title words overlap rate, dan informativeness of news headline. N kalimat
penting kemudian ditokenisasi, diekstraksi fitur, dan dilabeli dengan menggunakan
sequence labeling berdasarkan notasi BIO. Fitur yang digunakan dibagi menjadi 6
grup fitur yaitu leksikal, POS tag, NE tag, left prediction, DateTimePattern, dan
TitleToken.
Fitur terbaik untuk mengklasifikasikan kalimat penting yaitu term weight dan
sentence location. Hasil ekstraksi informasi terbaik didapatkan dengan
menggunakan Naïve Bayes dan menyeleksi fitur is time pattern, memberikan nilai
f-measure sebesar 0.860. Identifikasi kalimat penting berhasil meningkatkan nilai
f-measure ekstraksi informasi 5W1H yang dilakukan dengan sequence labeling.
URI
https://repo.itera.ac.id/depan/submission/SB1803210007
Keyword
Ekstraksi Informasi 5W1H; Identifikasi Kalimat Penting; Sequence Labeling; Notasi BIO; Naïve Bayes;