Pemodelan Klasifikasi Curriculum Vitae Dengan Representasi Teks BERT Dan
Random Forest
Perkembangan teknologi digital di Indonesia telah memperkuat kebutuhan akan
sistem rekrutmen yang efisien untuk mengklasifikasikan CV dalam jumlah besar.
Penelitian ini mengembangkan model klasifikasi CV menggunakan BERT dan
Random Forest, dilengkapi dengan optimasi hyperparameter dengan GridSearchCV
pada dataset 962 CV dari 25 kategori pekerjaan. BERT dipilih untuk analisis konteks
semantik teks yang mendalam dan diikuti reduksi dimensi menggunakan PCA yang
menghasilkan 117 komponen utama. Evaluasi model baseline menunjukkan accuracy
yang bervariasi antara 0.975 hingga 1.000, dan ROC AUC dekat 1.000. Model yang
dioptimasi dengan kombinasi hyperparameter terbaik, kedalaman maksimal pohon
(max_depth) sebesar 20, menggunakan sqrt sebagai metode pemilihan fitur maksimum
(max_features), dengan minimal satu sampel per daun (min_samples_leaf), minimal
dua sampel untuk membagi node (min_samples_split), dan 200 estimator,
menunjukkan hasil dengan accuracy 0.99481, precision 0.99555, recall 0.99481, F1-
score 0.994894, dan ROC AUC 1. Model ini secara konsisten mempertahankan
accuracy di atas 0.97 dan menawarkan saran untuk menggunakan dataset yang lebih
besar dan beragam serta eksplorasi algoritma lainnya seperti DisTilBERT dan
algoritma SVM atau Gradient Boosting.
URI
https://repo.itera.ac.id/depan/submission/SB2502110047
Keyword
BERT Random Forest GridSearchCV PCA machine learning klasifikasi CV hyperparameter optimization