(0721) 8030188    [email protected]   

Pemodelan Klasifikasi Curriculum Vitae Dengan Representasi Teks BERT Dan Random Forest


Perkembangan teknologi digital di Indonesia telah memperkuat kebutuhan akan sistem rekrutmen yang efisien untuk mengklasifikasikan CV dalam jumlah besar. Penelitian ini mengembangkan model klasifikasi CV menggunakan BERT dan Random Forest, dilengkapi dengan optimasi hyperparameter dengan GridSearchCV pada dataset 962 CV dari 25 kategori pekerjaan. BERT dipilih untuk analisis konteks semantik teks yang mendalam dan diikuti reduksi dimensi menggunakan PCA yang menghasilkan 117 komponen utama. Evaluasi model baseline menunjukkan accuracy yang bervariasi antara 0.975 hingga 1.000, dan ROC AUC dekat 1.000. Model yang dioptimasi dengan kombinasi hyperparameter terbaik, kedalaman maksimal pohon (max_depth) sebesar 20, menggunakan sqrt sebagai metode pemilihan fitur maksimum (max_features), dengan minimal satu sampel per daun (min_samples_leaf), minimal dua sampel untuk membagi node (min_samples_split), dan 200 estimator, menunjukkan hasil dengan accuracy 0.99481, precision 0.99555, recall 0.99481, F1- score 0.994894, dan ROC AUC 1. Model ini secara konsisten mempertahankan accuracy di atas 0.97 dan menawarkan saran untuk menggunakan dataset yang lebih besar dan beragam serta eksplorasi algoritma lainnya seperti DisTilBERT dan algoritma SVM atau Gradient Boosting.

URI
https://repo.itera.ac.id/depan/submission/SB2502110047

Keyword
BERT Random Forest GridSearchCV PCA machine learning klasifikasi CV hyperparameter optimization